


(œ) Jom M Mitchell y% mpy aat Sit 





* 了 机 械 工 业 出 版 社 


1 China Machine Press 


SVM PRT TE 





Wf ik ik OE PUG e RL PS PERE? 这 如 是 机 器 学 习 的 上 的。 本 书展 示 了 机 融和 学 

寺中 核心 的 算法 和 理论 ， 并 阁 明 了 了 算法 的 运行 过 程 。 本 所 综合 子 连 多 的 研究 成 果 ， 例 如 统计 笠 

人 工 知 能、 上 哲学、 人 信息论、 生物 学 、 认 知 科学 、 计 算 复杂 性 和 控制 论 等 ， 并 以 此 来 理解 问题 
的 背景 、 算 法 和 其 中 的 隐 仿 假定 
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本 书展 示 了 机 器 学 习 中 核心 的 算法 和 理论 、 并 阐明 了 算法 的 运行 过 程 。 本 书 综合 了 许 
多 的 研究 成 果 ， 例 如 统计 学 、 人 工 智 能 、 和 哲学、 信息 论 、 生 物 学 、 认 知 科 学 、 计 算 复 杂 性 
和 控制 论 等 ， 并 以 此 来 理解 问题 的 背景 、 算 法 和 其 中 的 隐 含 假定 。 本 书 可 作为 计算 机 专业 
本 科 生 、 研 究 生 教材 ， 也 可 作为 相关 领域 研究 人 员 、 教 师 的 参考 书 。 
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“机 器 学 习 ” 一 般 被 定义 为 一 个 系统 自我 改进 的 过 程 ， 但 仅仅 从 这 个 定义 来 理解 和 实现 
机 器 学 习 是 困难 的 。 从 最 初 的 基于 神经 元 模型 以 及 函数 逼近 论 的 方法 研究 ， 到 以 符号 演算 为 
基础 的 规则 学 习 和 决策 树 学 习 的 产生 ， 和 之 后 的 认 知 心理 学 中 归纳 、 解 释 、 类 比 等 概念 的 引 
和 ,至 最 新 的 计算 学 习 理 论 和 统计 学 习 的 兴起 (当然 还 包括 基于 马尔 可 夫 过 程 的 增强 学 习 )， 
机 器 学 习 一 直 都 在 相关 学 科 的 实践 应 用 中 起 着 主导 作用 。 研 究 人 员 们 借鉴 了 各 个 学 科 的 思想 
来 发 展 机 器 学 习 ， 但 关于 机 器 学 习 问 题 的 实质 究竟 是 什么 尚 无 定论 。 不 同 的 机 器 学 习 方 法 也 
各 有 优 和 缺点， 只 在 其 适用 的 领域 内 才 有 良好 的 效果 。 因 此 ， 以 枚 举 的 方法 描述 机 器 学 习 中 的 
各 个 理论 和 算法 可 能 是 最 合适 的 途径 。 

《机 器 学 习 》 一 书 正 是 以 这 种 途径 来 介绍 机 器 学 习 的 。 其 主要 涵盖 了 目前 机 器 学 习 中 各 
种 最 实用 的 理论 和 算法 ， 包 括 概念 学 习 、 决 策 树 、 神 经 网 络 、 贝 叶 斯 学 习 、 基 于 实例 的 学 
习 、 遗 传 算法 、 规 则 学 习 、 基 于 解释 的 学 习 和 增强 学 习 等 。 对 每 一 个 主题 ， 作 者 不 仅 进 行 了 
十 分 详尽 和 直观 的 解释 ， 还 给 出 了 实用 的 算法 流程 。 此 外 ， 书 中 还 包括 一 章 对 学 习 算法 的 精 
度 进 行 实验 评估 的 内 容 。 书 后 的 习题 和 参考 文献 提供 了 进一步 思考 相关 问题 的 线索 ， 在 网 址 
http: //www-2. cs. cmu. edu/ ~ tom/mlbook. html 上 也 可 以 找到 关于 该 书 的 讲演 幻灯 片 、 
例子 程序 和 数据 等 信息 。 在 卡 内 基 梅 隆 等 许多 大 学 ， 本 书 都 被 作为 机 器 学 习 课 程 的 教材 。 

本 书 的 作者 Tom M. Mitchell 在 机 器 学 习 领 域 享 有 盛名 。 他 是 卡 内 基 梅 隆 大 学 的 教授 ， 
目前 在 WhizBang! 实验 室 担任 副 主席 和 首席 科学 家 。 他 还 是 美国 人 工 智 能 协会 (AAAI 的 
主席 ， 并 且 是 《机 器 学 习 》 杂 志和 国际 机 器 学 习 年 度 会 议 (CML) 的 创始 人 。 

笔者 在 翻译 过 程 中 力求 忠于 原著 。 由 于 本 书 涉及 了 多 个 学 科 的 内 容 ， 因 此 其 中 许多 的 专 
业 术语 尽量 遵循 其 所 在 学 科 的 标准 译 法 ， 并 在 有 可 能 引起 歧义 和 冲突 之 处 做 了 适当 调整 。 辣 
时 ， 我 们 在 专业 术语 第 一 次 出 现 的 地 方 注 上 了 英文 原文 ， 以 方便 读者 的 对 照 理解 。 

全 书 的 翻译 由 曾 华 军 和 张 银 硅 合作 完成 ， 并 得 到 了 周志 华 、 苏 中 、 景 风 、 钱 芳 、 孙 晓 
明 、 余 世 鹏 、 秦 文 、 姚 良 基 和 张 西 烨 等 同志 的 许多 帮助 。 由 于 水 平 有 限 ， 书 中 错误 和 不 妥 之 
处 在 所 难免 ， 奶 请 读者 批评 指正 。 
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机 器 学 习 这 门 学 科 所 关注 的 问题 是 : 计算 机 程序 如 何 随 着 经 验 积 累 自动 提高 性 能 。 近 年 
来 ， 机 器 学 习 被 成 功 地 应 用 于 很 多 领域 ， 从 检测 信用 卡 交 易 欺 诈 的 数据 挖掘 程序 ， 到 获取 用 
户 阅读 兴趣 的 信息 过 滤 系 统 ， 再 到 能 在 高 速 公路 上 自动 行驶 的 汽车 。 同 时 ， 这 个 学 科 的 基础 
理论 和 算法 也 有 了 重大 进展 。 

这 本 教材 的 目标 是 展现 机 器 学 习 中 核心 的 算法 和 理论 。 机 器 学 习 从 很 多 学 科 吸 收 了 成 果 
和 概念 ， 包 括 统 计 学 、 人 工 智能 、 哲 学 、 信 息 论 、 生 物 学 、 认 知 科学 、 计 算 复 杂 性 和 控制 论 
等 。 笔 者 相信 ， 研 究 机 器 学 习 的 最 佳 途 径 是 从 这 些 学 科 的 观点 看 待机 器 学 习 ， 并 且 以 此 来 理 
解 问题 的 背景 、 算 法 以 及 其 中 隐 含 的 假定 。 这 些 在 以 往 很 难 做 到 ， 因 为 在 这 一 领域 缺少 包容 
广泛 的 原始 资料 ， 本 书 的 主要 目的 就 是 提供 这 样 的 一 份 资料 。 

由 于 素材 的 多 学 科 性 ， 本 书 不 要 求 读者 具有 相应 的 知识 背景 ， 而 是 在 必要 时 介绍 其 他 一 - 
些 学 科 的 基本 概念 ， 如 统计 学 、 人 工 智 能 、 信 息 论 等 。 介 绍 的 重点 是 与 机 器 学 习 关 系 最 密切 
的 那些 概念 。 本 书 可 以 作为 计算 机 科学 与 工程 、 统 计 学 和 社会 科学 等 专业 的 大 学 生 或 研究 生 
的 教材 ， 也 可 作为 软件 研究 人 员 或 从 业 人 员 的 参考 资料 。 指 导 本 书写 作 的 两 条 原则 为 : 第 
一 ， 它 是 在 校 大 学 生 可 以 理解 的 ; 第 二 ， 它 应 该 包含 我 希望 我 自己 的 博士 生 在 开始 他 们 的 机 
器 学 习 研 究 前 要 掌握 的 内 容 。 

指导 本 书写 作 的 第 三 条 原则 是 : 它 应 该 体现 理论 和 实践 间 的 均衡 。 机 器 学 习 理 论 致力 于 
回答 这 样 的 问题 “学 习性 能 是 怎样 随 着 给 定 的 训练 样 例 的 数量 而 变化 的 ?” 和 “对 于 各 种 不 
同类 型 的 学 习 任务 ， 哪 个 学 习 算法 最 适合 ?” 利 用 来 自 统 计 学 、 计 算 复 杂 性 和 贝 叶 斯 分 析 的 
理论 成 果 ， 这 本 书 讨论 了 这 一 类 理论 问题 。 同 时 本 书 也 涵盖 很 多 实践 方面 的 内 容 : 介绍 了 这 
一 领域 的 主要 算法 ， 阐 明了 算法 的 运行 过 程 。 其 中 一 些 算法 的 实现 和 数据 可 以 在 因特网 上 通 
过 网 址 http: //www. cs. emu. edu/“ tom/mlbook. html 得到， 包括 用 于 人 脸 识 别 的 神经 
网 络 的 源 代码 和 数据 、 用 于 信贷 分 析 的 决策 树 学 习 的 源 代码 和 数据 及 分 析 文 本 文档 的 贝 叶 斯 
分 类 器 的 源 代码 和 数据 。 我 很 感谢 那些 帮助 我 创建 这 些 在 线 资源 的 同事 ， 他 们 是 : Jason 
Rennie, Paul Hsiung, Jeff Shufelt、Matt Glickman, Scott Davies, Joseph O?’ Sullivan. Ken 
Lang, Andrew McCallum 和 Thorsten Joachims. 





出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 吉 出 、 独 领 风 驿 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭 攻 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 存 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意 识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum Stroustrup, Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 皮 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 训 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 针对 本 科 生 的 核心 课程 ， 剔 抉 外 版 其 华 而 成 “国外 经 典 教 
材 ” 系 列 ; 对 影印 版 的 教材 ， 则 单独 开辟 出 “经 典 原版 书库 ”; 定位 在 高 级 教程 和 专业 参考 
的 “计算 机 科学 丛书 ”还 将 保持 原来 的 风格 ， 继 续 出 版 新 的 品种 。 为 了 保证 这 三 套 丛 书 的 权 
威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 们 服务 ， 华 章 公司 聘请 了 中 国 科 学 院 、 北 京 大 学 、 清 
华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 
哈尔滨 工业 大 学 、 西 安 交通 大 学 、 中 国人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山 
大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重 
点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 的 著名 学 者 组 成 “专家 指导 委员 会 ”"， 为 我 们 提供 选 题 
意见 和 出 版 监督 。 








VI 


“国外 经 典 教材 ”是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 本 科教 
学 度 身 订 造 的 。 在 广泛 地 征求 并 听取 丛书 的 “专家 指导 委员 会 ”的 意见 后 ， 我 们 最 终 选 定 了 
这 20 多 种 篇 幅 内 容 适 度 、 讲 解 凌 以 人 里 的 教材 ， 其 中 的 大 部 分 已 经 被 M.ILT.、Stanford、U.C. 
Berkley 、C.M.U. 等 世界 名 牌 大 学 采用 。 从 书 不 仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系 统 、 计 
算 机 体系 结构 、 数 据 库 、 编 译 原 理 、 软 件 工程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数学 等 国内 大 学 
计算 机 专业 普遍 开设 的 核心 课程 ， 而 且 各 具 特 色 - 一 -有 的 出 自 语言 设计 者 之 手 、 有 的 历 三 十 
年 而 不 衰 、 有 的 已 被 全 世界 的 几 百 所 高 校 采用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 
者 必 将 在 计算 机 科学 的 宫殿 中 由 登 堂 而 人 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 


电子 邮件 : hzedu@hzbook.com 

联系 电话 : (010 ) 68995265 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 





专家 指导 委员 会 

( 按 姓 氏 笔画 顺序 ) 
丙 HR et 史 美 林 
建 IEF KES XNR 


hh Ey Fer 杨 冬青 
陆 丽 娜 AK mee 周 伯 生 
ABR re 岳 丽 华 i A 
施 伯乐 BPE ETA REL 





宏 程 78 程 时 端 谢 希 仁 








经 典 原版 书库 


《并 行 计算 机 体系 结构 》( 英文 版 ) 
David E. Culler, Jaswinder Pal Singh 著 /88 元 
《人 工 智能 》( 英文 版 ) 
Nils J. Nilsson 著 /45 元 
《高 性 能 通信 问 络 》( 英文 版 ) 
Jean Walrand, Pravin Varaiya 著 /64 元 
《计算 机 网 络 ”( 英文 版 ) 
Larry L. Peterson, Bruce S. Davie #/65 
《计算 机 体系 结构 : 量化 研究 方法 》 第 2 版 (英文 版 ) 
David A. Patterson, John L. Hennessy 著 /88 元 
《计算 机 组 织 与 设计 ， 硬件 /软件 接口 》 第 2 版 ( 英文 版 ) 
John L. Hennessy, David A. Patterson 著 /80 元 
《计算 机 图 形 学 的 算法 基础 》( 英文 版 ， 第 2 版 ) 
David F. Rogers 著 /45 元 
《计算 机 组 成 ( 英文 版 ， 第 5 版 ) 
Carl Hamacher 著 /48 元 
《可 扩展 并 行 计 算 : 技术 、 结 构 与 编程 》( 英文 版 ) 
Kai Hwang, Zhiwei Xu 著 /69 元 
《数据 圈 系 统 概念 》( 英文 版 ) 
Abraham Silberschatz, Henry F. Korth, S. Sudarshan 著 /65 元 
《高 级 计算 机 体系 结构 》( 英文 版 ) 
Kai Hwang 著 /59 元 
《数据 结构 、 算 法 与 应 用 一 一 C++ 语言 描述 ( 英文 版 ) 
Sartaj Sahni 著 /66 元 
《软件 工程 一 -实践 者 的 研究 方法 》( 英文 版 ) 
Roger S. Pressman 著 /68 元 
《软件 工程 一 - -Java 语 言 实现 》( 英文 版 ) 
Stephen R. Schach #/51 A 
《通信 网 络 基础 》( 英文 版 ) 
Jean Walrand 著 /32 元 
《数据 通信 与 网 络 》( 英文 版 ) 
Behrouz Forouzan 著 /59 元 
《离散 数学 及 其 应 用 》( 英文 版 ) 
Kenneth H. Rosen 著 /59 元 
《计算 机 体系 结构 : 量化 研究 方法 》( 英文 版 第 3 版 ) 
John L. Hennessy, David A. Patterson #/ 
(RAR RH) (ELM BWR) 
Andrew S. Tanenbaum 著 /48 元 
《组 合 教学 》( 英文 版 ， 第 3 版 ) 
Richard A. Brualdi 著 /35 元 





《ISDN、B-ISDN 与 帧 中 继 和 ATM ) ( 英文 版 ， 第 4 版 ) 

William Stallings 著 /35 元 
《数据 库 系 统 导 论 》( 英文 版 ， 第 7 版 ) 

C. J. Date 著 /65 元 
《C++ 编程 思想 》( 英文 版 ， 第 2 版 ) 

Bruce Eckel 著 /58 元 
《程序 设计 实践 》( 英文 版 ) 

Brian W. Kernighan, Rob Pike 著 /22 元 
《数据 库 系 统 实现 》( 英文 版 ) 

Hector Garcia-Molina, Jeffrey D. Ullman, Jennifer Widom 

著 /42 元 
《Intemet 技 术 基础 》( 英文 版 ， 第 3 版 ) 

Douglas E. Comer 著 /23 元 
《结构 化 计算 机 组 成 》( 英文 版 ， 第 4 版 ) 

Andrew S. Tanenbaum 著 /38 元 
《UNIX 环 境 高 级 编程 》( 英文 版 ) 

W. Richard Stevens 著 /49 元 
《网 络 互 连 ， 网 桥 .路 由 器 .交换 机 和 互 连 协议 》 

( 英文 版 第 2 版 ) 

Radia Perlman 著 /36 元 
《TCP/IP 详 解 Al: 协议 》( 英文 版 ) 

W. Richard Stevens 著 /39 元 
《Java 编 程 思想 》( 英文 版 .第 2 版 ) 

Bruce Eckel 著 /69 元 
《设计 模式 : 可 复 用 面向 对 象 软 件 的 基础 》( 英文 版 ) 

Erich Gamma, Richard Helm, Ralph Johnson, John 

Vlissides #/38 7 
《TCP/IP 详 解 %2: 实现 》( 英文 版 ) 

Gary R. Wright, W. Richard Stevens 著 /69 元 
《TCP/IP 详 解 43: TCP 事 务 协议 、HTTP、 
NNTP 和 UNIX 域 协议 》( 英文 版 ) 

W. Richard Stevens 著 /28 元 
《人 本 界面 一 一 设计 交互 式 系 统 的 最 新 指示 》( 英文 版 ) 
Jef Raskin 著 /28 元 
《程序 设计 语言 ， 概念 和 结构 》( 英文 版 ， 第 2 版) 

Ravi Sethi 著 /39 元 
《C++ 语言 的 设计 和 演化 》( 英文 版 ) 

Bjarne Stroustrup 著 /29 元 





《UNIX 操 作 系统 教程 》( 英文 版 ) 

Sarwar 著 /49 元 
《高 速 网 络 与 因特网 一 一 性 能 与 服务 质量 》 
{ 英文 版 第 2 版 ) 


William Stallings 著 /45 元 
《Linux 操 作 系统 内 核实 习 》( 英文 版 ) 


Gary J. Nutt 著 /32 元 
《具体 数学 : 计算 机 科学 基础 》( 英文 版 第 2 版 ) 
Ronald Graham 著 /49 元 
《计算 机 图 形 学 原理 及 实践 一 一 C 语 言 措 述 》 
( 英文 版 第 ?版 ) 
James D. Foley, Andries Van Dam, Steven K. Feiner, John 
F Hughes 著 /88 元 
《编写 有 效用 例 》( 英文 版 ) 
Alistair Cockburn 著 /25 元 
《系统 分 析 与 设计 》( 英文 版 ) 
John W. Satzinger, Robert B. Jackson, Stephen D. Burd 著 
160% 
《计算 机 文化 》( 英文 版 第 4 版 ) 
Parsons Oja 著 /55 元 
《电磁 场 与 电磁 波 》( 英文 版 ) 
Guru ¥ 68% 
《面向 对 象 与 经 典 软件 工程 》( 英文 版 ) 
Stephen R. Schach 著 
《数据 通信 与 网 络 教程 》( 英文 版 ) 
William A. Shay 著 
《数字 还 辑 应 用 与 设计 》( 英文 版 ) 
John M. Yarbrough # 
《和 神经 网 络 设计 》( 英文 版 ) 
Hagan # 
《专家 系统 原理 与 编程 》( 英文 版 ) 
Giarratano, Riley 著 
《编译 原理 与 实践 》( 英文 版 ) 
Kenneth C. Louden 著 
《计算 理论 年 引 》( 英文 版 ) 
Sipser # 
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《关系 数据 库 习题 与 解答 》( 英 文 版 ) OO” 
Ramon A.Mata-Toledo 著 /26 元 





《关系 数据 库 习 题 与 解答 》( 中 译本 ) 
Ramon A. Mata-Toledo 著 / 周 云 晖 等 译 /19 元 
《计算 机 体系 结构 习题 与 解答 》( 英文 版 ) 
Nicholas Carter 著 /30 元 
《计算 机 图 形 学 习题 与 解答 》( 英文 版 * 第 2 版 ) 
Zhigang Xiang 著 /35 元 
《计算 机 图 形 学 习题 与 解答 》( 中 译本 ) 
Zhigang Xiang 著 / 陈 泽 琳 等 译 /29 元 
《数据 结构 习题 与 解答 一 一 Java 语言 描述 》( 英文 版 ) 
John R. Hubbard 著 /38 元 
《数据 结构 习题 与 解答 一 一 Java 语 言 描述 》( 中 译本 ) 
John R. Hubbard 著 /Pa 国 贵 等 译 /39 元 
《C++ 编程 习题 与 解答 》( 英文 版 ， 第 2 版 ) 
John R. Hubbard 著 /39.5 元 
《C++ 编程 习题 与 解答 》( 中 译本 ) 
John R. Hubbard 著 / 徐 漫 江 等 译 /39 元 
《操作 系统 习题 与 解答 》( 英文 版 ) 
JArcher Harris 著 /25 元 
(Java 编程 习题 与 解答 》( 英文 版 ) 
John R. Hubbaro 著 /28 元 
《Java 编程 习题 与 解答 》( 中 译本 ) 
Hubbard 著 /王强 等 译 /29 元 
《计算 机 科学 导论 习题 与 解答 》( 英文 版 ) 
Ramon A. Mata-Toledo 着 /30 元 
《数据 结构 习题 与 解答 一 一 C++ 语 言 描述 》( 英文 版 ) 
John R. Hubbard 著 /38 元 
《软件 工程 系统 与 解答 》( 英文 版 ) 
David A. Gustafson 著 
《计算 机 网 络 习题 与 解答 》( 英文 版 ) 
Ed Titte! # 
《计算 机 导论 习题 与 解答 》 
Pauline K. Cushman #/## #4# 等 译 /29 元 
{ Visual Basic 编程 习题 与 解答 》 
Byron S. Gottfried 著 / 周 旭 等 译 /29 元 
《SQL 编程 习题 与 解答 》( 中 译本 ) 
Mata Toledo 著 / 胡 上 志 军 等 译 /29 元 
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第 1 章 5| 


自从 计算 机 问世 以 来 ,人 们 就 想 知道 它们 能 不 能 自我 学 习 。 如 果 我 们 理解 了 它们 学 习 的 内 在 
机 制 , 即 怎样 使 它们 根据 经 验 来 自动 提高 ,那么 影响 将 是 空前 的 。 想 像 一 下 ,在 未 来 ,计算 机 能 从 医 
疗 记录 中 学 习 , 获 取 治 疗 新 疾病 最 有 效 的 方法 ;住宅 管理 系统 分 析 住 户 的 用 电 模 式 ,以 降低 能 源 消 
耗 ;个 人 软件 助理 跟踪 用 户 的 兴趣 ,并 为 其 选择 最 感 兴趣 的 在 线 早 间 新 闻 。 对 计算 机 学 习 的 成 功 理 
解 将 开辟 出 许多 全 新 的 应 用 领域 ,并 使 其 计算 能 力 和 可 定制 性 上 升 到 新 的 层次 。 同 时 ,透彻 理解 机 
器 学 习 的 信息 处 理 算法 ,也 会 有 助 于 更 好 地 理解 人 类 的 学 习 能 力 ( 及 缺陷 )。 

目前 ,我 们 还 不 知道 怎样 使 计算 机 具备 和 人 类 一 样 强大 的 学 习 能 力 。 然 而 ,一 些 针对 特定 
学 习 任务 的 算法 已 经 产生 。 关 于 学 习 的 理论 认识 已 开始 逐步 形成 。 人 们 开发 出 很 多 实践 性 的 
计算 机 程序 来 实现 不 同类 型 的 学 习 ,一些 商业 化 的 应 用 也 已 经 出 现 。 例 如 ,对 于 语音 识别 这 样 
的 课题 ,迄今 为 止 ,基于 机 器 学 习 的 算法 明显 胜 过 其 他 的 方法 。 在 数据 挖掘 领域 ,机 器 学 习 算 
法 理所当然 地 被 用 来 从 包含 设备 维护 记录 借贷 申请 、 金 融 交 易 、 医 疗 记录 等 此 类 信息 的 大 型 
数据 库 中 发 现 有 价值 的 信息 。 随 着 对 计算 机 认识 的 日 益 成 熟 , 机 器 学 习 必 将 在 计算 机 科学 和 
技术 中 扮演 越 来 越 重要 的 角色 ! 

我 们 可 以 通过 一 些 专项 成 果 看 到 机 器 学 习 这 门 技术 的 现状 :计算 机 已 经 能 够 成 功 地 识别 
人 类 的 讲话 (Waibel 1989, Lee 1989) ;预测 肺炎 患者 的 康复 率 (Cooper et al. 1997) ;检测 信用 卡 
的 欺诈 ;在 高 速 公 路 上 自动 驾驶 汽车 (Pomerleau 1989) ;以 接近 人 类 世界 冠军 的 水 平 对 弈 西洋 
双 陆 棋 2 这 样 的 游戏 (Tesauro 1992，1995)。 已 有 很 多 理论 成 果 能 够 对 训练 样 例 数量 .假设 空 
间 大 小 和 已 知 假设 中 的 预期 错误 这 三 者 间 的 基本 关系 进行 刻画 。 我 们 正 开 始 获取 人 类 和 动物 
学 习 的 原始 模型 ,用 以 理解 它们 和 计算 机 的 学 习 算法 间 的 关系 (例如 , Laird et al. 1986, Ander- 
son 1991, Qin et al. 1992,Chi & Bassock 1989, Ahn & Brewer 1993)。 在 过 去 的 十 年 中 ,无论 
是 应 用 、 算 法 、 理 论 , 还 是 生物 系统 的 研究 ,都 取得 了 令 人 瞩目 的 进步 。 机 器 学 习 最 新 的 几 种 应 
用 被 归纳 在 表 1-1 中 。Langley & Simon(1995) 以 及 Rumelhart et al.(1994) 调 查 了 机 器 学 习 
的 一 些 其 他 应 用 。 

表 1-1 机 器 学 习 的 一 些 成 功 应 用 


@ 学 习 识别 人 类 的 讲话 
所 有 最 成 功 的 语音 识别 系统 都 使 用 了 某 种 形式 的 机 器 学 习 技术 。 例 如 ,SPHINX 系统 (参见 Lee 1989) 可 针 
对 特定 讲话 者 学 习 语音 识别 策略 ,从 检测 到 的 语音 信号 中 识别 出 基本 的 音素 (phoneme) 和 单词 。 神 经 网 络 学 习 
方法 (例如 Waibel et al. 1989) 和 隐 和 马尔 可 夫 模 型 (hidden Markov model) 学 习 方法 (参见 Lee 1989) 在 语音 识别 
系统 中 也 非常 有 效 。 它 们 可 以 让 系统 自动 适应 不 同 的 讲话 者 ,词汇 , 才 克 风 特 性 和 背景 噪音 等 等 。 类 似 的 技术 
在 很 多 信号 解释 课题 中 也 有 应 用 潜力 








O 一 种 类 似 飞行 棋 的 游戏 ,双方 各 持 十 五 子 ,通过 扼 般 子 来 决定 棋子 移动 的 步 数 。 一 一 译 者 注 
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全 学习 驾驶 车 辆 
机 器 学 习 方 法 已 经 用 于 训练 计算 机 控制 的 车 辆 ,使 其 在 各 种 类 型 的 道路 上 正确 行驶 。 例 如 ,ALVINN 系 
统 (Pomerleau 1989) 已 经 能 利用 它 学 会 的 策略 独自 在 高 速 公路 的 其 他 车 辆 之 间 奔 驰 ,以 70 英里 的 时 速 共 行驶 
了 90 英里。 类 似 的 技术 可 能 在 很 多 基于 传感器 的 控制 问题 中 得 到 应 用 
会 学 习 分 类 新 的 天 文 结构 
机 器 学 习 方 法 已 经 被 用 于 从 各 种 大 规模 的 数据 库 中 发 现 隐藏 的 一 般 规律 。 例 如 ,决策 树 学 习 算法 已 经 被 
美国 国家 航空 和 航天 局 (NASA) 用 来 分 类 天 体 ,这 些 天 体 来 自 第 二 帕 洛 马 天 文 台 的 太空 观察 结果 (Fayyad et al 
1995)。 这 一 系统 现在 被 用 于 自动 分 类 太空 观察 中 的 所 有 天 体 ,其 中 包含 了 3T 字 节 的 图 像 数 据 
o 学习 以 世界 级 的 水 平 对 奔 西 洋 双 陆 棋 
最 成 功 的 博弈 类 (如 西洋 双 陆 棋 ) 计 算 机 程序 是 基于 机 器 学 习 算法 的 。 例 如 ,世界 最 好 的 西洋 双 陆 棋 程序 
TD-GAMMON( Tesauro 1992, 1995) 是 通过 一 百 万 次 以 上 与 自己 对 弈 来 学 习 其 策略 的 ,现在 它 的 水 平 能 与 人 类 
的 世界 冠军 相 比 。 类 似 的 技术 已 被 应 用 于 许多 实际 问题 ,在 这 些 问题 中 ,都 需要 高 效 地 搜索 庞大 的 搜索 空间 


本 书 针对 机 器 学 习 这 个 领域 ,描述 了 多 种 学 习 范 型 算法、 理论 以 及 应 用 。 机 器 学 习 从 本 


质 上 讲 是 一 个 多 学 科 的 领域 。 它 吸取 了 人 工 智能 .概率 统计 .计算 复杂 性 理论 .控制 论 .信息 
论 哲学. 生理学、 神经 生物 学 等 学 科 的 成 果 。 表 1-2 归纳 了 来 自 这 些 学 科 的 影响 机 器 学 习 的 
关键 思想 。 本 书 的 素材 基于 不 同学 科 的 成 果 , 然 而 ,读者 不 必 精 通 每 一 个 学 科 。 来 自 这 些 学 科 
的 关键 理论 将 使 用 非 专业 的 词汇 讲解 ,其 中 不 熟悉 的 术语 和 概念 会 在 必要 时 加 以 介绍 。 





表 1-2 一 些 学 科 和 它们 对 机 器 学 习 的 影响 


oA THE 
学 习 概 念 的 符号 表示 。 作 为 搜索 问题 的 机 器 学 习 。 作 为 提高 问题 求解 能 力 的 学 习 。 利 用 先 验 的 知识 和 训 
练 数据 一 起 引导 学 习 
@ 贝 叶 斯 方法 
作为 计算 假设 概率 基础 的 贝 叶 斯 法 则 。 朴 素 贝 叶 斯 分 类 器 。 未 观测 到 变量 估计 值 的 算法 
@ 计算 复杂 性 理论 
不 同学 习 任 务 中 固有 的 复杂 性 的 理论 边界 ,以 计算 量 .训练 样 例 数量 .出 错 数量 等 衡量 
@ 控制 论 
为 了 优化 预定 目标 ,学 习 对 各 种 处 理 过 程 进 行 控 制 ,学 习 预 测 被 控制 的 过 程 的 下 一 个 状态 


@ 信息 论 
粹 和 信息 内 容 的 度量 。 学 习 最 小 描述 长 度 方 法 。 编 码 假设 时 ,对 最 佳 训练 序列 的 最 佳 编码 及 其 关系 


多 哲学 
“ 奥 坎 姆 的 剃刀 ”(Occam's razor) :最 简单 的 假设 是 最 好 的 。 将 观察 到 的 数据 泛 化 的 理由 分 析 


@@ 心 理学 和 神经 生物 学 
SBR AYES AE (power law of practice) ,该 定律 指出 对 于 很 大 范围 内 的 学 习 问 题 , 人 们 的 反应 速度 随 着 实践 


次 数 的 震级 提高 。 激 发 人 工 神经 网 络 学 习 模 式 的 神经 生物 学 研究 
© 统计 学 
根据 有 限 数据 样本 ,对 估计 假设 精度 时 出 现 的 误差 (例如 ,偏差 和 方差 ) 的 刻画 。 置 信 区 间 ,统计 检验 


ww -一 
O etk“ 3-4” (Law of Parsimony) 或 “节约 律 "(Law of Economy), 主 要 思想 为 简单 的 理论 (或 假设 ) 优 于 复杂 的 , 因 英 
BS OF EK MIME (1285 ~ 1349) 频 繁 使 用 这 一 原则 , 故 称 为 “ 奥 坎 姆 剃刀 "。 一 和 译 者 注 


1.1 学 习 问 题 的 标准 描述 


让 我 们 从 几 个 学 习 任务 开始 研究 机 器 学 习 。 根 据 本 书 的 目的 ,我 们 给 学 习 下 一 个 宽广 的 
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定义 ,以 使 其 包括 任何 计算 机 程序 通过 经 验 来 提高 某 任 务 处 理性 能 的 行为 。 更 准确 的 定义 如 
下 。 


定义 :如 果 一 个 计算 机 程序 针对 某 类 任务 7 的 用 P 衡量 的 性 能 根据 经 验 E 来 自我 完善 ， 
那么 我 们 称 这 个 计算 机 程序 在 从 经 验 E 中 学 习 , 针 对 某 类 任务 了 , 它 的 性 能 用 P 来 衡量 。 


例如 ,对 于 学 习 下 西洋 跳棋 2 的 计算 机 程序 , 它 可 以 通过 和 自己 下 棋 获 取经 验 ; 它 的 任务 
是 参与 西洋 跳棋 对 弈 ; 它 的 性 能 用 它 赢 棋 的 能 力 来 衡量 。 通 常 ,为 了 很 好 地 定义 一 个 学 习 问 
题 ,我 们 必须 明确 这 样 三 个 特征 ;任务 的 种 类 ,衡量 任务 提高 的 标准 ,经 验 的 来 源 。 

西洋 跳棋 学 习 问题 : 

e 任务 了 :下 西洋 跳棋 

o 性 能 标准 P: 比 赛 中 击败 对 手 的 百分比 

o 训练 经 验 三 :和 自己 进行 对 弈 

我 们 可 以 用 以 上 方法 定义 很 多 学 习 问 题 , 例 如 ,学 习 手 写 识别 .学 习 自 动 驾 驶 汽车 。 

手写 识别 学 习 问题 : 

@ 任务 了 :识别 和 分 类 图 像 中 的 手写 文字 

o 性 能 标准 P: 分 类 的 正确 率 

o 训练 经 验 :已 知 分 类 的 手写 文字 数据 库 

机 器 人 驾驶 学 习 问 题 : 

@ 任务 7: 通 过 视觉 传感器 在 四 车 道 高 速 公 路 上 驾驶 

o 性 能 标准 P: 平 均 无 差错 行驶 里 程 (差错 由 人 监督 裁定 ) 

o 训练 经 验 :注视 人 类 驾驶 时 录制 的 一 系列 图 像 和 罗 驶 指令 

这 里 对 学 习 的 定义 宽广 到 足以 包括 大 多 数 惯 于 被 称 为 "学习 "的 任务 ,就 像 我 们 日 常 使 用 
这 个 词 一 样 。 同 时 , 它 甚至 包括 了 以 非常 直接 的 方式 通过 经 验 自 我 提高 的 计算 机 程序 。 例 如 ， 
一 个 允许 用 户 更 新 数据 条 目的 数据 库 系 统 ,也 符合 我 们 对 学 习 系 统 的 定义 : 它 根据 从 数据 库 更 
新 得 到 的 经 验 提 高 它 响应 数据 查询 的 能 力 。 与 其 担心 这 种 行为 与 日 常 谈论 的 “学 习 ” 这 个 词 非 
正式 含义 相 混淆 ,我 们 索性 简单 地 采用 我 们 的 科技 型 定义 一 一 通过 经 验 提高 性 能 的 某 类 程序 。 
在 这 个 范畴 内 ,我 们 会 发 现 很 多 问题 或 多 或 少 需要 较 复杂 的 解决 办 法 。 这 里 我 们 并 非 要 分 析 
“学 习 " 这 个 单词 的 日 常 含义 ,而 是 要 精确 地 定义 一 类 问题 ,其 中 圳 括 了 有 趣 的 学 习 形 式 ,探索 
解决 这 类 问题 的 方法 ,并 理解 学 习 问 题 的 基本 结构 和 过 程 。 


1.2 设计 一 个 学 习 系 统 

为 了 说 明 一 些 机 器 学 习 的 基本 设计 方法 和 学 习 途 径 ,让 我 们 考虑 设计 一 个 学 习 下 西洋 跳 
棋 的 程序 。 我 们 的 目标 是 让 它 进 入 西洋 跳棋 世界 锦标 赛 。 我 们 采用 最 显而易见 的 标准 衡量 它 
的 性 能 :在 世界 锦标 赛 中 的 获胜 百分比 。 





O ”为 了 更 好 理解 本 例 , 下 面 简要 介绍 一 下 这 种 跳棋 。 棋 盘 为 8x8 方 格 , 深 色 棋 格 不 
可 着 子 。 可 单 步行 走 , 亦 可 每 步 跨 对 方 一 子 单 跳 或 连 跳 ,被 跨越 的 子 被 杀 出 局 。 
到 达 对 方 底线 的 子 成 为 王 ,可 回 向 行走 (成 为 王 前 只 可 前 行 ), 又 可 隔 空 格 飞 行 。 
右 图 为 西洋 跳棋 棋盘 示例 (起 始 状 态 )。 一 一 译 者 注 
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1.2.1 选择 训练 经 验 


我 们 面临 的 第 一 个 设计 问题 是 选择 训练 经 验 的 类 型 ,使 系统 从 中 进行 学 习 。 给 学 习 器 提 
供 的 训练 经 验 对 它 的 成 败 有 重大 的 影响 。 一 个 关键 属性 是 训练 经 验 能 否 为 系统 的 决策 提供 直 
接 或 间接 的 反馈 。 例 如 ,对 于 学 习 下 西洋 跳棋 ,系统 可 以 从 直接 (direct) 的 训练 样 例 , 即 各 种 棋 
盘 状 态 和 相应 的 正确 走 子 中 学 习 。 另 一 种 情况 , 它 可 能 仅 有 间接 (indirect) 的 信息 ,包含 很 多 
过 去 对 弈 的 走 子 序列 和 最 终结 局 。 对 于 后 一 种 情况 ,对 弈 中 较 早 走 子 的 正确 性 必须 从 对 弈 最 
终 的 输赢 来 推断 。 这 时 学 习 器 又 面临 一 个 信用 分 配 (credit assignment) 问 题 ,也 就 是 考虑 每 -一 
次 走 子 对 最 终结 果 的 贡献 程度 。 信 用 分 配 可 能 是 一 个 非常 难以 解决 的 问题 ,因为 如 果 后 面 下 
得 很 差 ,那么 即使 起 初 的 走 子 是 最 佳 的 ,这 盘 棋 也 会 输 掉 。 所 以 ,从 直接 的 训练 反馈 学 习 要 比 
从 间接 反馈 学 习 容 易 。 

训练 经 验 的 第 二 个 重要 属性 是 学 习 器 可 以 在 多 大 程度 上 控制 训练 样 例 序 列 。 例 如 ,学 习 
器 可 能 依赖 施 教 者 选取 的 棋盘 状态 和 所 提供 的 每 一 次 正确 移动 ;或 者 ,学 习 器 可 能 自己 提出 它 
发 现 的 特别 困惑 的 棋局 并 向 施 教 者 询问 正确 的 走 子 ;或 者 ,学 习 器 可 以 完全 控制 棋局 和 (间接 
的 ) 训 练 分 类 ,就 像 没 有 施 教 者 时 它 和 自己 对 弈 进行 学 习 一 样 。 注 意 ,对 于 最 后 一 种 情况 ,学 习 
器 可 能 选择 以 下 两 种 情况 中 的 一 种 :第 一 ,试验 它 还 未 考虑 过 的 全 新 棋局 ;第 二 ,在 它 目 前 发 现 
的 最 有 效 的 路 线 的 微小 变化 上 对 弈 ,以 磨 厅 它 的 技能 。 后 续 的 章节 考虑 一 些 学 习 框架 ,包括 了 
训练 经 验 是 以 超 乎 学 习 器 控制 的 随机 过 程 提 供 的 ;学 习 器 可 向 施 教 者 提出 不 同类 型 的 查询 ;以 
及 学 习 器 通过 自动 探索 环境 来 搜集 训练 样 例 的 情况 。 

训练 经 验 的 第 三 个 重要 属性 是 ,训练 样 例 的 分 布 能 多 好 地 表示 实例 分 布 , 通 过 样 例 来 衡量 
最 终 系统 的 性 能 P。 一 般 而 言 , 当 训练 样 例 的 分 布 和 将 来 的 测试 样 例 的 分 布 相似 时 ,学 习 具 有 
最 大 的 可 信和 度 。 对 于 我 们 的 西洋 跳棋 学 习 , 性 能 指标 P 是 该 系统 在 世界 锦标 赛 上 获胜 的 百 分 
比 。 如 果 它 的 训练 经 验 E 仅 由 和 它 自己 对 弈 的 训练 组 成 , 便 存在 一 个 明显 的 危险 :这 个 训练 
可 能 不 能 充分 地 代表 该 系统 以 后 被 测试 时 的 情形 。 例 如 ,学 习 器 可 能 在 训练 中 从 未 遇 到 过 某 
些 致命 的 棋局 ,而 它们 又 非常 可 能 被 人 类 世界 冠军 采用 。 实 际 上 ,学 习 的 样 例 通常 与 最 终 系统 
被 评估 时 的 样 例 有 一 定 差异 ,学习 器 必须 能 从 中 进行 学 习 ( 举 例 来 说 , 世界 级 的 西洋 跳棋 冠军 
可 能 不 会 有 兴趣 教 一 个 程序 下 棋 )。 这 的 确 是 一 个 问题 ,因为 掌握 了 样 例 的 一 种 分 布 ,不 一 定 
会 使 它 对 其 他 的 分 布 也 有 好 的 性 能 。 可 以 看 到 很 多 最 新 的 机 器 学 习 理 论 都 是 基于 训练 样 例 与 
测试 样 例 分 布 一 致 这 一 假设 。 尽 管 我 们 需要 这 样 的 假设 以 便 得 到 理论 结果 ,但 同样 必须 记 住 
在 实践 中 这 个 假设 经 常 是 不 成 立 的 。 

下 面 继续 进行 算法 设计 ,我 们 决定 系统 将 通过 和 自己 对 弈 来 训练 。 这 样 的 好 处 是 不 需要 
外 界 的 训练 者 ,只 要 时 间 人 允许 ,可 以 让 系统 产生 无 限 多 的 训练 数据 。 现 在 有 了 一 个 完整 的 学 习 
任务 。 

西洋 跳棋 学 习 问题 : 

e 任务 7: 下 西洋 跳棋 

o 性 能 标准 已: 世界 锦标 赛 上 击败 对 手 的 百分比 

o 训练 经 验 EMA CTA 

为 了 完成 这 个 学 习 系 统 的 设计 ,现在 需要 选择 : 
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1) 要 学 习 的 知识 的 确切 类 型 
2) 对 于 这 个 目标 知识 的 表示 
3) 一 种 学 习 机 制 


1.2.2 选择 目标 函数 


下 一 个 设计 选择 是 决定 要 学 习 的 知识 的 确切 类 型 以 及 执行 程序 怎样 使 用 这 些 知识 。 我 们 
从 一 个 对 于 任何 棋局 都 能 产生 合法 (legal) 走 子 的 西洋 跳棋 博弈 程序 开始 。 那 么 ,最终 的 程序 
仅 须 学 会 从 这 些 合法 的 走 子 中 选择 最 佳 走 子 。 这 个 学 习 任 务 代表 了 一 类 任务 :合法 走 子 定义 
了 某 个 已 知 的 巨大 搜索 空间 ,但 最 佳 的 搜索 策略 未 知 。 很 多 最 优化 问题 都 可 归于 此 ,例如 ,对 
于 生产 过 程 的 调度 和 控制 问题 。 生 产 中 的 每 一 步 都 很 清楚 ,但 调度 这 些 步骤 的 最 佳 策略 未 知 。 

学 习 从 合法 走 子 中 做 出 选择 ,很 明显 ,要 学 习 的 信息 类 型 就 是 一 个 程序 或 函数 , 它 对 任何 
给 定 的 棋局 能 选 出 最 好 的 走 法 ,可 称 此 函数 为 ChooseMove ,并 用 记 法 ChooseMove: B> M 来 表 
示 这 个 函数 接收 合法 棋局 集合 中 的 棋盘 状态 作为 输入 ,并 从 合法 走 子 集合 中 产生 某 个 走 子 作 
为 输出 。 在 关于 机 器 学 习 的 所 有 讨论 中 ,我们 发 现 把 提高 任务 7 的 性 能 P 的 问题 简化 为 学 习 
像 ChooseMove 这 样 某 个 特定 的 目标 函数 (target function) 的 问题 是 很 有 益 的 。 所 以 月 标 函 数 
的 选择 是 一 个 关键 的 设计 问题 。 

尽管 在 例子 中 很 明显 应 把 ChooseMove 作为 目标 函数 ,但 我 们 会 发 现 学 习 这 个 目标 函数 是 
非常 困难 的 ,原因 是 提供 给 系统 的 是 间接 的 训练 经 验 。 另 外 一 个 可 供 选择 的 目标 函数 是 一 个 
评估 函数 , 它 为 任何 给 定 棋 局 赋予 一 个 数字 评分 。 可 以 发 现 ,对 于 本 例 , 学 习 这 个 目标 函数 更 
简单 。 这 个 目标 函数 为 V, 并 用 V: BARRA V 把 任何 合法 的 棋局 从 集合 B 映射 到 某 -- 
个 实数 值 (用 .多 来 表示 实数 集合 )。 我 们 让 这 个 目标 函数 V 给 好 的 棋局 赋予 较 高 的 评分 。 如 
果 系 统 能 够 成 功 地 学 会 这 个 目标 函数 了 ,那么 它 便 能 使 用 此 函数 轻松 地 找到 当前 棋局 的 最 佳 
走 法 。 实 现 的 方法 是 , 先 产生 每 一 个 合法 走 子 的 所 有 后 续 棋局 ,然后 使 用 了 来 选取 其 中 最 佳 
的 后 继 棋 局 ,从 而 选择 最 佳 走 子 。 

对 于 任意 棋局 ,目标 函数 Y 的 准确 值 应 该 是 多 少 呢 ? 当然 任何 对 较 好 的 棋局 赋 子 较 高 分 
数 的 评估 函数 都 适用 。 然 而 ,最 好 在 那些 产生 最 佳 对 弈 的 众多 方法 中 定义 一 个 特定 的 目标 函 
数 了。 可 以 看 到 ,这 将 使 得 设计 一 个 训练 算法 变 得 简单 。 因 此 ,对 于 集合 B 中 的 任意 的 棋局 
状态 5, 我 们 如 下 定义 目标 函数 V(b): 

1) WR b 是 一 最 终 的 胜局 ,那么 V(b) = 100 

2) 如 果 b 是 一 最 终 的 负 局 ,那么 V(b) = - 100 

3) WR b 是 一 最 终 的 和 局 ,那么 V(b) =0 

4) WÈ b 不 是 最 终 棋 局 ,那么 V(b) = V(5'), 其 中 65’ 是 从 6b 开始 双方 都 采取 最 优 对 弈 后 

可 达到 的 终局 。 

然而 ,由 于 这 个 定义 的 递归 性 , 它 的 运算 效率 不 高 ,所 以 这 个 定义 对 于 西洋 跳棋 比赛 者 不 
可 用 。 除 了 无 关 紧 要 的 前 三 种 终局 的 情况 ,对 于 某 一 个 棋盘 状态 (情况 4) ,5 要 决定 它 的 值 
V (4) 需 要 向 前 搜索 到 达 终 局 的 所 有 有 路线! 由 于 这 个 定义 不 能 由 西洋 跳棋 程序 高 效 地 运算 ,这 
个 定义 被 称 为 不 可 操作 的 定义 。 当 前 的 学 习 目 标 是 发 现 一 个 可 操作 的 定义 了 , 它 能 够 被 西洋 
跳棋 程序 用 来 在 实际 的 时 间 限 制 内 评估 棋局 并 选取 走 法 。 
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所 以 这 种 情况 下 ,学 习 任 务 被 简化 成 发 现 -一 个 理想 目标 函数 V 的 可 操作 描述 。 通 常 要 完 
美 地 学 习 这 样 一 个 V 的 可 操作 的 形式 是 非常 困难 的 。 事 实 上 ,通常 我 们 仅 希望 学 习 算法 得 到 
近似 的 目标 函数 ,由 于 这 个 原因 学 习 目 标 旺 数 的 过 程 常 被 称 为 函数 允 近 (function approxima- 
tion)。 在 当前 的 讨论 中 ,用 乡 来 表示 程序 中 实际 学 习 到 的 函数 ,与 它 的 理想 目标 函数 V 相 区 
别 。 


1.2.3 选择 目标 函数 的 表示 


至 此 ,我 们 已 经 确定 了 理想 的 目标 函数 Y , 接 下 来 必须 选择 一 个 表示 ,被 学 习 程序 用 来 描 
述 要 学 习 的 函数 了 『’。 对 此 也 有 很 多 设计 选择 。 例 如 ,可 以 让 程序 表示 六 ,方法 是 使 用 一 张大 
表 , 对 于 每 个 惟一 的 棋盘 状态 , 表 中 有 惟一 的 表 项 来 确定 它 的 状态 值 。 或 者 ,可 以 让 程序 用 一 
个 规则 集合 来 匹配 棋局 的 特征 以 表示 了 ,或 采用 一 个 与 预定 义 棋 盘 特 征 有 关 的 二 次 多 项 式 也 
数 ,或 者 用 人 工 神经 元 网 络 。 通 常 ,选择 这 个 描述 包含 一 个 重要 的 权衡 过 程 。 一 方面 ,我 们 总 
希望 选取 一 个 非常 有 表现 力 的 描述 ,以 最 大 可 能 地 逼近 理想 的 目标 函数 V。 男 一 方面 , 越 有 
表现 力 的 描述 需要 越 多 的 训练 数据 ,使 程序 能 从 它 表 示 的 多 种 假设 中 选择 。 为 了 简化 讨论 , 现 
在 选择 一 个 简单 的 表示 法 :对 于 任何 给 定 的 棋盘 状态 ,函数 『 了 『 可 以 通过 以 下 棋盘 参数 的 线性 
组 合 来 计算 : 

Ox, :棋盘 上 黑子 的 数量 

e x2: 棋 盘 上 红 子 的 数量 

o x3: 棋 盘 上 黑 王 的 数量 

e x4: 棋 盘 上 红 王 的 数量 

© xs: 被 红 子 威胁 的 黑子 数量 ( 即 会 在 下 一 次 被 红 子 吃 掉 的 黑子 数量 ) 

© x6: 被 黑子 威胁 的 红 子 数量 

于 是 ,学 习 程 序 把 了 (5) 表示 为 一 个 线性 函数 

V(b) = wot wy x, + WX2+ WI3X3+ WaX4+ W5X5 t+ WeXe 

其 中 , wo 到 we 为 数字 系数 ,或 叫 权 ,由 学 习 算法 来 选择 。 在 决定 某 一 个 棋盘 状态 值 时 ， 
权 w; 到 ws 决定 了 不 同 的 棋盘 特征 的 相对 重要 性 ,而 权 wo 为 一 个 附加 的 棋盘 状态 值 常量 。 

概括 一 下 目前 为 止 的 设计 选择 。 我 们 已 经 详细 阐述 了 这 个 学 习 问 题 的 原型 , 即 为 它 选择 
一 种 类 型 的 训练 经 验 ,一 个 要 学 习 的 目标 函数 以 及 这 个 目标 函数 的 一 种 表示 。 现 在 的 学 习 任 
务 是 : 

西洋 跳棋 程序 的 部 分 设计 : 

e 任务 了 :下 西洋 跳棋 

o 性 能 标准 尸 :世界 锦标 赛 上 击败 对 手 的 百分比 

o 训练 经 验 :和 自己 进行 对 弈 

o 目标 函数 :了 : Board >R 

© ARRIBA: V(b) = wot wy x. t+ wax. t W3X3+ WaX4+ WS5X5+ We6X6 

前 三 条 是 对 学 习 任 务 的 说 明 , 后 两 条 制定 了 为 实现 这 个 学 习 程序 的 设计 方案 。 注 意 这 个 
设计 的 关键 作用 是 把 学 习 西 洋 跳棋 战略 的 问题 简化 为 学 习 目 标 函 数 表 示 中 系数 wo 到 we tH 
的 问题 。 


1.2.4 选择 函数 逼近 算法 








为 了 学 习 目 标 函 数 乡 ,需要 一 系列 训练 样 例 ,每 一 个 样 例 描述 了 特定 的 棋盘 状态 b ME 
目标 函数 值 Yuon(8) 为 + 100。 


[估计 训练 值 


的 训练 值 Vw,(5)。 换 言 之 ,每 一 个 训练 样 例 是 形式 为 (5, Vs,(5)) 的 序 偶 。 举 例 来 说 ,下 
BN w, 以 最 佳 拟 合 这 些 训练 样 例 。 


面 的 训练 实例 描述 了 一 个 黑 棋 取胜 (注意 x = 0, 表 示 红 棋 已 经 没有 子 了 ) 的 棋盘 状态 b, CH 


((x1=3,x2=0,x3=1,x4=0,x5=0,x5=0), + 100) 





下 文 描述 了 一 个 过 程 , 它 先 从 学 习 器 可 得 的 间接 训练 经 验 中 导出 上 面 的 训练 样 例 ,然后 调 


根据 以 上 的 学 习 模型 ,学 习 器 可 以 得 到 的 训练 信息 仅 是 对 弈 最 后 的 胜 负 。 另 一 方面 ,我 们 
需要 训练 样 例 为 每 个 棋盘 状态 赋予 一 个 分 值 。 给 对 弈 结束 时 的 棋盘 状态 评分 很 容易 , 而 要 给 
对 弈 结束 前 的 大 量 中 间 棋 盘 状 态 评分 就 不 那么 容易 了 。 因 为 ,一 盘 棋 的 最 终 输 赢 未 必 能 说 明 
这 盘 棋 当中 的 每 一 个 棋盘 状态 的 好 坏 。 例 如 ,即使 某 个 程序 输 了 一 盘 棋 , 仍 会 有 这 样 的 情况 ， 
这 盘 棋 前 面 的 棋局 应 被 给 予 很 高 的 评价 ,失败 的 原因 在 于 后 来 糟糕 的 走 法 。 
尽管 估计 中 间 棋 局 训练 值 具有 内 在 的 模糊 性 ,但 令 人 惊讶 的 是 有 一 个 简单 的 方法 却 取得 
了 和 良好 效果 。 这 种 方法 是 把 任何 中 间 棋 局 4 UNAM Vain ORT V Successor (b)) ,其 中 
训练 值 估计 法 则 


V 是 学 习 器 目前 采用 的 V 的 近似 函数 ,Successor (4b) 表示 b 之 后 再 轮 到 程序 走 棋 时 的 棋盘 状 
态 ( 也 就 是 程序 走 了 一 步 和 对 手 回应 一 步 后 的 棋局 )。 估 计 训 练 值 的 方法 可 被 归纳 为 : 


V rain (b) V( Successor ( b)) 
或 许 这 看 起 来 有 点 离奇 ,只 使 用 当前 的 V 来 估计 被 用 来 精 化 同一 函数 的 训练 值 ,但 请 注意 ,我 
们 是 在 用 后 续 棋 局 Swecoessor(5) 的 估计 值 来 估计 棋局 b 的 值 。 赁 直觉 我 们 可 以 看 到 , 越 接近 游戏 结 
2. 调 整 权 值 


(1.1) 
估计 的 迭代 估计 训练 值 的 方法 ,已 被 证 明 可 以 近乎 完美 地 收敛 到 Vw 估计 值 。 


束 的 棋局 的 了 越 趋向 精确 。 事 实 上 ,在 特定 条 件 下 (将 在 第 13 章 讨论 ), 这 种 基于 对 后 继 棋 局 进行 


E = > 


定义 为 使 训练 值 和 假设 V 预测 出 的 值 间 的 误差 平方 和 E 最 小 。 


(b, Vrain PE training examples 


剩 下 的 事情 就 是 为 这 个 学 习 算法 选择 最 适合 训练 样 例 1b，Vioin (65))1 的 权 wie 第 一 步 


必须 定义 最 佳 拟 合 (best fit) 训 练 数据 的 含义 。 一 种 常用 的 方法 是 把 最 佳 的 假设 (或 权 值 集合 ) 
( V irain (b) = V(b))? 


至 此 ,我 们 的 目标 就 是 寻找 权 值 或 了 ,使 对 于 观测 到 的 训练 数据 E 值 最 小 。 第 6 章 将 讨 
论 在 什么 条 件 下 ,最 小 化 误差 平方 和 等 价 于 寻找 给 定 观测 训练 数据 下 的 最 可 能 假设 。 


已 经 知道 一 些 算法 可 以 得 到 线性 函数 的 权 使 此 定义 的 吾 最 小 化 。 在 这 里 需要 一 个 算法 ， 
它 可 以 在 有 了 新 的 训练 样 例 时 进一步 精 化 权 值 ,并 且 它 对 估计 的 训练 数据 中 的 差错 有 好 的 健 
壮 性 。 一 个 这 样 的 算法 被 称 作 最 小 均 方法 (least mean squares) ,或 叫 LMS 训练 法 则 。 对 于 每 
一 训练 样 例 , 它 把 权 值 向 减 小 这 个 训练 数据 误差 的 方向 略为 调整 。 如 第 4 章 讨论 的 那样 ,这 个 
算法 可 被 看 作对 可 能 的 假设 ( 权 值 ) 空 间 进 行 随机 的 梯度 下 降 搜 索 ,以 使 误差 平方 和 E 最 小 
Wo LMS 算法 是 这 样 定义 的 : 
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LMS 权 值 更 新 法 则 
对 于 每 一 个 训练 样 例 (b ,Voi,( 5) 
o 使 用 当前 的 权 计 算 V(b) 
o 对 每 一 个 权 值 w; 进行 如 下 更 新 
wit wit AC Virain(b) ~- VCb)) x; 


这 里 7 是 一 个 小 的 常数 (比如 0.1) ,用 来 调整 权 值 更 新 的 幅度 。 为 了 直观 地 理解 这 个 权 
值 更 新 法 则 的 工作 原理 ,请 注意 , 当 误 差 ( Yun(b) -了 (85)) 为 0 时 , 权 不 会 被 改变 。 当 
(Verain(b) 一 六 (6)) 为 正 时 (例如 , 当 玉 (46) 太 低 时 ) ,每 一 个 权 值 会 根据 其 对 应 的 特征 值 增加 
-- 定 的 比例 。 这 会 提升 了 (2) 的 值 而 减 小 误差 。 注 意 , 如 果 某 个 参数 x; 为 0, 那么 它 的 值 不 会 
因 这 个 误差 而 改变 ,这 样 就 使 只 有 那些 在 训练 样 例 的 棋局 中 确实 出 现 的 特征 的 权 值 才 被 更 新 ， 
令 人 吃惊 的 是 ,在 一 定 的 条 件 下 ,这 种 简单 的 权 值 调整 方法 被 证 明 可 以 收敛 到 Viois 值 的 最 小 
误差 平方 逼近 (参见 第 4 章 的 相关 讨论 )。 


1.2.5 最 终 设 计 


西洋 跳棋 学 习 系统 的 最 终 设计 可 以 用 四 个 不 同 的 程序 模块 来 描述 ,这 些 模 块 在 很 多 学 习 
系统 中 是 核心 组 件 。 这 四 个 模块 被 归纳 在 图 1-1 中 ,下 面 分 别 介绍 。 


Ce ) 





新 问题 
(初始 棋局 ) 


假设 
(Vv) 







训练 样 例 
{<b,.V (b,) >, <h, Vrain (02) >.) 


解答 路 线 
(对 弈 历史 ) 


图 1-1 西洋 跳棋 学 习 程序 的 最 终 设计 


执行 系统 (Performance System) ”这 个 模块 是 用 学 会 的 目标 函数 来 解决 给 定 的 任务 ,在 此 
就 是 对 弈 西洋 跳棋 。 它 把 新 间 题 (新 一 盘 棋 ) 的 实例 作为 输入 ,产生 一 组 解答 路 线 ( 对 弈 历史 记 
录 ) 作 为 输出 。 在 这 里 ,执行 系统 采用 的 选择 下 一 步 走 法 的 策略 是 由 学 到 的 评估 函数 Y 来 决 
定 的 。 所 以 我 们 期 待 它 的 性 能 会 随 着 评估 函数 的 日 益 准 确 而 提高 。 
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Use Be (Critic) 它 以 对 弈 的 路 线 或 历史 记录 作为 输入 ,输出 目标 函数 的 一 系列 训练 样 
例 。 如 图 所 示 ,每 一 个 训练 样 例 对 应 路 线 中 的 某 个 棋盘 状态 和 目标 函数 给 这 个 样 例 的 评估 值 
Veraine 在 我 们 的 例子 中 ,鉴定 器 对 应 公式 (1.1) 给 出 的 训练 法 则 。 

泛 化 器 (Generalizer) 它 以 训练 样 例 作为 输入 ,产生 一 个 输出 假设 ,作为 它 对 目标 函数 的 
估计 。 它 从 特定 的 训练 样 例 中 泛 化 ,猜测 一 个 一 般 函 数 ,使 其 能 够 覆盖 这 些 样 例 以 及 样 例 之 外 
的 情形 。 在 我 们 的 例子 中 , 泛 化 器 对 应 LMS 算法 ,输出 假设 是 用 学 习 到 的 权 值 wo,...， we 
描述 的 函数 『。 

实验 生成 器 (Experiment Generator) 它 以 当前 的 假设 (当前 学 到 的 函数 ) 作 为 输入 ,输出 
-个 新 的 问题 (例如 ,最 初 的 棋局 ) 供 执行 系统 去 探索 。 它 的 作用 是 挑选 新 的 实践 问题 ,以 使 整 
个 系统 的 学 习 速 率 最 大 化 。 在 我 们 的 例子 中 ,实验 生成 器 采用 了 非常 简单 的 策略 : 它 总 是 给 出 
一 个 同样 的 初始 棋局 来 开始 新 的 一 盘 棋 。 更 完善 的 策略 可 能 致力 于 精心 设计 棋子 位 置 以 探索 
棋盘 空间 的 特定 区 域 。 

总 体 来 看 ,我们 为 西洋 跳棋 程序 作 的 设计 就 是 产生 执行 系统 .鉴定 器 . 泛 化 器 和 实验 生成 
器 的 特定 实例 。 很 多 机 器 学 习 系统 通常 可 以 用 这 四 个 通用 模块 来 刻画 。 

设计 西洋 跳棋 程序 的 流程 被 归纳 在 图 1-2 中 。 这 个 设计 已 经 在 几 方 面 把 学 习 任 务 限制 在 
较 小 的 范围 内 。 要 学 习 的 知识 类 型 被 限制 为 一 个 单一 的 线性 评估 函数 ,而 且 这 个 评估 函数 被 
限制 为 仅 依赖 于 六 个 棋盘 特征 。 如 果 目 标 函 数 真 的 可 表示 为 这 些 特定 参数 的 线性 组 合 , 那 么 
程序 学 到 这 个 目标 函数 的 可 能 性 很 大 。 反 之 ,最 多 只 能 希望 它 学 到 一 个 非常 接近 的 近似 ,因为 
一 个 程序 当然 不 能 学 会 它 根本 不 能 表示 的 东西 。 

我 们 假定 真实 函数 Y 的 一 个 非常 接近 的 近似 确实 可 被 表示 为 这 种 形式 。 那 么 问题 变 成 
这 种 学 习 技 术 是 否 确 保 能 发 现 一 个 非常 接近 的 近似 。 第 13 章 提供 了 一 种 理论 分 析 ,表明 对 于 
某 些 类 型 的 搜索 问题 ,在 相当 严格 的 前 提 下 ,这 种 方法 确实 收敛 到 期 望 的 评估 函数 。 很 幸运 ， 
实践 经 验 表明 这 种 学 习 评 估 函 数 的 途径 经 常 是 成 功 的 ,甚至 在 能 被 证 明 的 情形 之 外 也 是 如 此 。 

已 经 设计 的 程序 能 学 得 足够 好 以 致 可 以 击败 人 类 的 西洋 跳棋 冠军 吗 ? 或 许 不 能 。 部 分 原 
因 是 因为 六 的 线性 函数 表示 太 简 单 ,以 致 于 不 能 很 好 捕 提 这 种 棋 的 微妙 之 处 。 然 而 ,如 果 给 
出 一 个 更 完善 的 目标 函数 表示 法 , 这 种 通用 的 途径 事实 上 可 以 非常 成 功 。 例 如 ,Tesauro 
(1992，1995) 发 表 了 学 习 下 西洋 双 陆 棋 的 程序 的 类 似 设计 ,方法 是 学 习 针 对 棋局 的 一 个 非常 
类 似 的 评估 函数 。 他 的 程序 使 用 人 工 神 经 元 网 络 表示 学 到 的 评估 函数 ,考虑 对 棋局 的 完整 描 
述 而 不 是 棋盘 的 几 个 参数 。 经 历 了 一 百 万 次 以 上 的 自我 生成 的 训练 比赛 后 ,他 的 程序 能 够 和 
一 流 的 人 类 西洋 双 陆 棋 选 手 一 争 高 下 。 

当然 还 可 能 为 西洋 跳棋 学 习 任 务 设计 很 多 其 他 的 算法 。 例 如 ,可 以 只 简单 地 存储 训练 样 
例 , 然 后 去 寻找 保存 的 “最 接近 的 ”情形 来 匹配 新 的 情况 (最 近邻 算法 ,第 8 章 ) ,或 者 可 以 产生 
大 量 候选 的 西洋 跳棋 程序 ,并 让 它们 相互 比赛 ,保留 最 成 功 的 程序 并 进一步 用 模拟 进化 的 方式 
来 培育 或 变异 它们 (遗传 算法 , 见 第 9 章 )。 人 类 似乎 遵循 另 一 种 途径 来 寻找 学 习 策 略 ,他 们 分 
析 或 向 自己 解释 比赛 中 碰 到 的 某 一 次 成 败 的 原因 (基于 解释 的 学 习 , 见 第 11 章 )。 上 面 的 设计 
是 这 些 种 类 中 的 一 个 简单 的 算法 , 它 是 为 了 给 我 们 今后 针对 特定 类 别 的 任务 的 学 习 方 法 设计 
奠定 基础 。 














| 完成 的 设计 | 
图 1-2 ”西洋 跳棋 学 习 程 序 的 设计 过 程 概述 


1.3 机 器 学 习 的 一 些 观点 和 问题 


在 机 器 学 习 方面 ,一 个 有 效 的 观点 是 机 器 学 习 问题 经 常 归结 于 搜索 问题 , 即 对 一 个 非常 大 
的 假设 空间 进行 搜索 ,以 确定 一 个 最 佳 拟 合 观察 到 的 数据 和 学 习 器 已 有 知识 的 假设 。 例 如 , 考 
虑 一 下 上 面 的 西洋 跳棋 学 习 程 序 输出 的 假设 空间 。 这 个 假设 空间 包含 所 有 可 由 权 wo 到 wg 
的 不 同 值 表示 的 评估 函数 。 于 是 学 习 器 的 任务 就 是 搜索 这 个 空间 来 定位 与 训练 数据 最 佳 拟 合 
的 假设 。 针 对 拟 合 权 值 的 LMS 算法 通过 先 代 调整 权 值 实 现 了 这 个 目的 。 每 当 假设 的 评估 函 
数 预测 出 一 个 与 训练 数据 有 偏差 的 值 时 ,就 对 每 个 权 值 进行 校正 。 当 学 习 器 考虑 的 假设 表示 
定义 了 一 个 连续 的 参数 化 的 潜在 假设 空间 时 ,这 个 算法 很 有 效 。 

本 书 的 很 多 章节 给 出 了 对 一 些 基本 表示 (例如 ,线性 函数 .逻辑 描述 .决策 树 \ 人 工 神 经 元 
网 络 ) 定 义 的 假设 空间 的 搜索 算法 。 这 些 不 同 的 假设 表示 法 适合 于 学 习 不 同 的 目标 函数 。 对 
于 其 中 的 每 一 个 假设 表示 法 ,对 应 的 学 习 算法 发 挥 不 同 内 在 结构 的 优势 来 组 织 对 假设 空间 的 
搜索 。 

自始至终 ,本 书 都 贯穿 着 这 种 把 学 习 问题 视 为 搜索 问题 的 看 法 ,从 而 通过 搜索 策略 和 学 习 
器 探索 的 搜索 空间 的 内 在 结构 来 刻画 学 习 方法 。 我 们 也 会 发 现 ,这 种 观点 对 于 形式 化 地 分 析 
要 搜索 的 假设 空间 的 大 小 .可 利用 的 训练 样 例 的 数量 以 及 一 个 与 训练 数据 一 致 的 假设 能 泛 化 
到 未 见 实例 的 置信 度 这 三 者 之 间 的 关系 很 有 效 。 














机 器 学 习 的 问题 


西洋 跳棋 例子 提出 了 机 器 学 习 方面 很 多 普遍 问题 。 机 器 学 习 这 门 学 科 和 本 书 的 绝 大 部 分 
都 致力 于 回答 类 似 下 面 的 问题 : 

© 存在 什么 样 的 算法 能 从 特定 的 训练 数据 学 习 一 般 的 目标 函数 呢 ? 如 果 提 供 了 充足 的 训 

练 数据 ,什么 样 的 条 件 下 会 使 特定 的 算法 收敛 到 期 望 的 函数 ? 哪个 算法 对 哪些 问题 和 

表示 的 性 能 最 好 。 

® 多 少 训练 数据 是 充足 的 ? 怎样 找到 学 习 到 假设 的 置信 和 度 与 训练 数据 的 数量 及 提供 给 学 

习 器 的 假设 空间 特性 之 间 的 一 般 关 系 ? 

9 学 习 器 拥有 的 先 验 知识 是 怎样 引导 从 样 例 进 行 泛 化 的 过 程 的 ? 当先 验 知识 仅仅 是 近似 

正确 时 ,它们 会 有 帮助 吗 ? 

o 关于 选择 有 效 的 后 续 训练 经 验 ,什么 样 的 策略 最 好 ?这 个 策略 的 选择 会 如 何 影响 学 习 

问题 的 复杂 性 ? 

© 怎样 把 学 习 任务 简化 为 一 个 或 多 个 函数 逼近 问题 ? 换 一 种 方式 ,系统 该 试图 学 习 哪 些 

函数 ?这 个 过 程 本 身 能 自动 化 吗 ? 

o 学 习 器 怎样 自动 地 改变 表示 法 来 提高 表示 和 学 习 目标 函数 的 能 力 ? 


1.4 如 何 阅 读本 书 


这 本 书 介绍 了 机 器 学 习 的 主要 算法 和 途径 .不同 学习 任务 可 行 性 和 特定 算法 能 力 的 理论 
结果 以 及 机 器 学 习 应 用 于 解决 现实 问题 的 例子 。 我 们 尽力 做 到 各 章 的 写作 都 与 阅读 顺序 无 
关 , 然 而 各 章 的 相互 依赖 性 是 不 可 避免 的 。 如 果 本 书 用 作 教 科 书 ,我 建议 首先 阅读 第 1 章 和 第 
2 章 , 剩 下 来 的 各 章 基 本 可 以 以 任意 顺序 阅读 。 一 个 学 期 的 机 器 学 习 课 程 可 以 包括 前 7 章 以 
及 额外 的 几 个 最 感 兴趣 的 章节 。 下 面 简要 介绍 一 下 各 章 内 容 。 

e 第 2 章 包 括 基于 符号 和 逻辑 表示 的 概念 学 习 。 也 讨论 了 假设 的 一 般 到 特殊 偏 序 结构 和 

学 习 中 引入 归纳 偏 置 的 必要 性 。 

oF 3 章 包括 决策 树 学 习 和 过 度 拟 合 训练 数据 的 问题 。 这 一 章 也 剖析 了 奥 坎 姆 剃刀 一 一 
该 原则 建议 在 与 数据 一 致 的 假设 中 选择 最 短 假设 。 

o 第 4 章 包括 人 工 神经 网 络 的 知识 ,特别 是 已 研究 得 很 好 的 反 向 传播 算法 以 及 梯度 下 降 
的 一 般 方法 。 这 一 章 包含 一 个 详细 的 基于 神经 网 络 的 人 脸 识别 实例 ,该 例 需 要 的 数据 
和 算法 可 以 在 万 维 网 上 得 到 。 

e 第 5 章 给 出 了 来 自 统计 和 估计 理论 的 基础 概念 ,着 重 于 使 用 有 限 的 样本 数据 评估 假设 
的 精度 。 这 一 章 包 含 了 用 于 估计 假设 精度 的 置信 空间 和 对 不 同学 习 算 法 的 精度 进行 比 
较 的 方法 。 

oF 6 章 介 绍 机 器 学 习 的 贝 叶 斯 观点 。 距 包括 了 使 用 贝 叶 斯 分 析 刻 画 非 贝 叶 斯 学 习 算 
法 ,又 包括 了 直接 处 理 概 率 的 贝 叶 斯 算法 。 这 一 章 包括 一 个 应 用 贝 叶 斯 分 类 器 来 分 类 
文本 文档 的 详细 例子 ,所 需 的 数据 和 软件 可 以 在 万 维 网 上 得 到 。 

o 第 7 章 涵 盖 了 计算 学 习 理论 ,包括 可 能 近似 正确 (Probably Approximately Correct, PAC) 

的 学 习 模型 和 出 错 界限 ( Mistake-Bound) 学 习 模 型 。 本 章 讨 论 了 联合 多 个 学 习 方 法 的 
加 权 和 多数 (WEIGHTED MAJORITY) 算 法 。 
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e 第 8 章 描述 了 基于 实例 的 学 习 方法 ,包括 最 近邻 学 习 法 .局 部 加 权 回 归 法 和 基于 案例 的 
推理 法 。 

e 第 9 章 讨论 了 根据 生物 进化 建 模 的 学 习 算 法 ,包括 遗传 算法 和 遗传 编程 。 

e 第 10 章 涵盖 了 一 组 学 习 规 则 集合 的 算法 ,包括 学 习 一 阶 Horn 子 句 的 归纳 逻辑 编程 方法 。 

e 第 11 章 包含 了 基于 解释 的 学 习 , 即 一 种 使 用 以 前 的 知识 解释 观察 到 的 实例 ,然后 根据 
这 些 解 释 来 泛 化 的 学 习 方法 。 

e 第 12 章 讨论 了 把 以 前 的 近似 知识 结合 到 现 有 的 训练 数据 中 来 ,以 提高 学 习 精 度 的 方 
法 。 其 中 ,符号 算法 和 神经 网 络 算法 都 有 讨论 。 

e 第 13 章 讨 论 了 增强 学 习 。 这 种 方法 是 为 了 控制 学 习 , 这 种 学 习 包括 作为 训练 信息 中 的 
间接 或 延迟 的 反馈 信息 。 本 章 前 面 提 及 的 下 棋 学 习 程 序 是 增强 学 习 的 一 个 简单 的 例 
子 。 

每 章 的 结尾 包含 了 所 涵盖 的 主要 概念 的 小 结 .进一步 阅读 的 参考 和 习题 。 对 章节 的 更 新 ， 

包括 数据 集 和 算法 的 实现 ,都 可 从 网 址 http: //www.cs.cmu.edu/tom/mlbook . html 得 到 。 


1.5 小 结 和 补充 读物 


机 器 学 习 致 力 于 研究 建立 能 够 根据 经 验 自我 提高 处 理性 能 的 计算 机 程序 。 该 部 分 的 要 点 
包括 : 
© 机 器 学 习 算 法 在 很 多 应 用 领域 被 证 明 很 有 实用 价值 。 它 们 在 以 下 方面 特别 有 用 :(a) 数 
据 挖掘 问题 , 即 从 大 量 数据 中 发 现 可 能 包含 在 其 中 的 有 价值 的 规律 (例如 ,从 患者 数据 
库 中 分 析 治 疗 的 结果 ,或 者 从 财务 数据 中 得 到 信用 贷款 的 普遍 规则 );(b) 在 某 些 困 难 的 
领域 中 ,人 们 可 能 还 不 具有 开发 出 高 效 的 算法 所 需 的 知识 (比如 ,从 图 像 库 中 识别 出 人 
脸 );(e) 计 算 机 程序 必须 动态 地 适应 变化 的 领域 (例如 ,在 原料 供给 变化 的 环境 下 进行 
生产 过 程控 制 ,或 适应 个 人 阅读 兴趣 的 变化 )。 
© 机 器 学 习 从 不 同 的 学 科 吸 收 概念 ,包括 人 工 智 能 .概率 和 统计 、 计 算 复 杂 性 .信息论 . 心 
理学 和 神经 生物 学 .控制 论 以 及 哲学 。 
© 一 个 完整 定义 的 学 习 问 题 需 要 一 个 明确 界定 的 任务 ,性 能 度量 标准 以 及 训练 经 验 的 来 源 。 
© 机 器 学 习 算法 的 设计 过 程 中 包含 许多 选择 ,包括 选择 训练 经 验 的 类 型 .要 学 习 的 目标 站 
数 .该 目标 函数 的 表示 形式 以 及 从 训练 样 例 中 学 习 目 标 取 数 的 算法 。 
e 学 习 的 过 程 即 搜索 的 过 程 ,搜索 包 含 可 能 假设 的 空间 ,使 得 到 的 假设 最 符合 已 有 的 训练 
样 例 和 其 他 预先 的 约束 或 知识 。 本 书 的 大 部 分 内 容 围绕 着 搜索 各 种 假设 空间 (例如 , 包 
含 数值 函数 ,神经 网 络 .决策 树 .符号 规则 的 空间 ) 的 不 同学 习 方法 以 及 理论 上 这 些 搜索 
方法 在 什么 条 件 下 会 收敛 到 最 佳 假设 。 
有 很 多 关于 机 器 学 习 最 新 研究 成 果 的 优秀 资源 可 供 阅 读 。 相 关 的 杂志 包括 《机 器 学 习 》 
( Machine Learning ),《 神 经 计算 》( Neural Computation ),《 神 经 网 络 》( Neural Networks ) RG = 
国 统计 协会 期 刊 》( Journal of the American Statistical Association ) 和 《IEEE 模式 分 析 和 机 占 
智能 学 报 》(IEEE Transactions on Pattern Analysis and Machine Intelligence) o 也 有 大 量 的 年 
会 黎 盖 了 机 器 学 习 的 各 个 方面 ,包括 国际 机 器 学 习 会 议 (ICML) ,神经 信息 处 理 系统 会 议 
(NIPS) ,计算 学 习 理 论 会 议 (CCLT) ,国际 遗传 算法 会 议 (ICGA) ,国际 知识 发 现 和 数据 挖掘 会 
议 (KDD) ,欧洲 机 器 学 习 会 议 (ECML) 等 。 











1.3 


1.4 


给 出 三 种 机 器 学 习 方法 适合 的 计算 机 应 用 ,三 种 不 适合 的 计算 机 应 用 。 挑 选 本 书 未 提 及 
的 应 用 并 对 每 个 应 用 以 一 句 话 来 评价 。 
挑选 一 些 本 书 未 提 到 的 学 习 任务 。 写 一 段 话 非 正 式 地 加 以 描述 。 再 尽 可 能 精确 地 描述 
出 它 的 任务 .性 能 衡量 标准 和 训练 经 验 。 最 后 ,给 出 要 学 习 的 目标 函数 和 它 的 表示 。 讨 
论 这 个 任务 设计 中 考虑 的 主要 折 中 。 
证 明 本 章 描述 的 LMS 权 更 新 法 则 采用 了 梯度 下 降 方法 使 误差 平方 最 小 化 。 确 切 地 讲 ， 
像 文中 那样 定义 误差 平方 E. ANHA E 对 权 w; 的 导数 ,其 中 假定 了 (5) 与 文中 定义 
的 一 样 , 是 一 个 线性 函数 。 梯 度 下 降 是 通过 与 - 3 筷 成 比例 地 更 新 每 个 权 值 实现 的 。 所 
以 ,必须 证 明 对 于 所 遇 到 的 每 一 个 训练 样 例 ,LMS 训练 法 则 都 是 按 这 个 比例 来 改变 权 
值 。 
图 1-1 中 实验 生成 器 模块 可 采用 其 他 一 些 策略 。 确 切 地 讲 ,考虑 实验 生成 器 用 下 面 的 策 
略 提出 新 的 棋局 : 

© 产生 随机 的 合法 的 棋局 

© 从 前 面 的 对 弈 中 挑选 一 个 棋局 ,然后 走 一 步 上 次 没有 走 的 棋 而 产生 新 的 棋局 

o 一 种 你 自己 设计 的 策略 
讨论 这 些 策略 的 优 务 。 如 果 训 练 样 例 的 数量 是 固定 的 , 哪 一 个 效果 最 好 ? 假定 性 能 衡量 
标准 是 在 世界 锦标 赛 上 赢 棋 最 多 。 
使 用 类 似 于 西洋 跳棋 问题 的 算法 ,实现 一 个 更 简单 的 tic-tac-toe WRO, EAI E K 
数 这 表示 为 自选 的 棋局 参数 的 线性 组 合 。 在 训练 这 个 程序 时 ,让 它 和 它 的 另 一 个 拷贝 
反复 比赛 ,后 者 使 用 一 个 手工 建立 的 固定 评估 函数 。 绘 制 出 你 的 程序 的 获胜 率 随 训练 次 
数 的 变化 情况 。 
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第 2 章 概念 学 习 和 一 般 到 特殊 序 


从 特殊 的 训练 样 例 中 归纳 出 一 般 函 数 是 机 器 学 习 的 中 心 问题 。 本 章 介绍 概念 学 习 : 给 定 
某 一 类 别 的 若干 正 例 和 反例 ,从 中 获得 该 类 别 的 一 般 定义 。 概 念 学习 也 可 以 看 作 是 一 个 搜索 
问题 的 过 程 , 它 在 预定 义 的 假设 空间 中 搜索 假设 ,使 其 与 训练 样 例 有 最 佳 的 拟 合 度 。 多 数 情形 
下 ,为 了 高 效 的 搜索 , 可 以 利用 假设 空间 中 一 种 自然 形成 的 结构 一 一 即 一 般 到 特殊 偏 序 结构 。 
本 章 展示 了 几 种 概念 学 习 算法 ,并 讨论 了 这 些 算法 能 收敛 到 正确 假设 的 条 件 。 这 里 还 分 析 了 
归纳 学 习 的 本 质 以 及 任意 程序 能 从 训练 数据 中 泛 化 的 理由 。 


2.1 简介 

许多 机 器 学 习 问 题 涉及 到 从 特殊 训练 样 例 中 得 到 一 般 概 念 。 比 如 和 人们 不 断 学 习 的 一 些 一 
般 概 念 和 类 别 包括 : 鸟 类 ,汽车 .勤奋 的 学 习 等 。 每 个 概念 可 被 看 作 一 个 对 象 或 事件 集合 , 它 是 
从 更 大 的 集合 中 选取 的 子 集 ( 如 从 动物 的 集合 中 选取 乌 类 ) ,或 者 是 在 这 个 较 大 集合 中 定义 的 
布尔 函数 (如 在 动物 集合 中 定义 的 函数 , 它 对 鸟 类 产生 true 并 对 其 他 动物 产生 false) 。 

本 章 考 虑 的 问题 是 ,给 定 一 样 例 集合 以 及 每 个 样 例 是 否 属于 某 一 概念 的 标注 ,怎样 自动 推 
断 出 该 概念 的 一 般 定义 。 这 一 问题 被 称 为 概念 学 习 (concept learning) ,或 称 从 样 例 中 逼近 布 
尔 值 函 数 。 

定义 : 概念 学 习 是 指 从 有 关 某 个 布尔 函数 的 输入 输出 训练 样 例 中 推断 出 该 布尔 函数 。 


2.2 概念 学 习 任 务 


为 了 更 好 地 理解 概念 学 习 , 考 虑 一 个 概念 学 习 的 例子 ,本 例 的 目标 概念 是 :“ Aldo 进行 水 
上 运动 的 日 子 "。 表 2-1 描述 了 一 系列 日 子 的 样 例 ,每 个 样 例 表 示 为 属性 的 集合 。 属 性 En- 
joySport 表示 这 一 天 Aldo 是 否 乐于 进行 水 上 运动 。 这 个 任务 的 目的 是 基于 某 天 的 各 属性 ,以 
预测 出 该 天 EnjoySport 的 值 。 


表 2-1 目标 概念 EnjoySport 的 正 例 和 反例 











Example Sky AirTemp Humidity Wind Water Forecast EnjoySport 
1 Sunny Warm Normal Strong Warm Same Yes 
2 Sunny Warm High Strong Warm Same Yes 
3 Rainy Cold High Strong Warm Change No 


4 Sunny Warm High Strong Cool Change Yes 


在 这 种 情况 下 ,采取 什么 样 的 形式 来 表示 假设 呢 ? 可 以 先 考虑 一 个 较为 简单 的 形式 , 即 实 
例 的 各 属性 约束 的 合 取 式 。 在 这 里 ,可 令 每 个 假设 为 6 个 约束 的 向 量 ,这 些 约束 指定 了 属性 
Sky , Air Temp , Humidity, Wind. Water 和 Forecast 的 值 。 每 个 属性 可 取 值 为 ; 
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o 由 “?” 表 示 任 意 本 属性 可 接受 的 值 。 
o 明确 指定 的 属性 值 ( 如 Warm). 
© 由 “4” 表 示 不 接受 任何 值 。 
如 果 某 些 实例 x 满足 假设 h 的 所 有 约束 ,那么 将 x 分 类 为 正 例 (h(x)=1)。 比 如 ,为 
判定 Aldo 只 在 寒冷 和 潮湿 的 日 子 里 进行 水 上 运动 (并 与 其 他 属性 无 关 ) ,这 样 的 假设 可 表示 为 
下 面 的 表达 式 : 





(?, Cold, High, ?, ?, ?) 
最 一 般 的 假设 是 每 一 天 都 是 正 例 , 可 表示 为 : 
(7, ?, ?, ?, ?, ?) 
而 最 特殊 的 假设 即 每 一 天 都 是 反例 ,表示 为 : 
(Ø, Ø, Ø, Ø, Ø, Ø) 
综 上 所 述 , EnjoySport 这 个 概念 学 习 任 务 需要 学 习 的 是 使 EnjoySport = yes 的 日 子 , 并 将 
其 表示 为 属性 约束 的 合 取 式 。 一 般 说 来 ,任何 概念 学 习 任 务 能 被 描述 为 :实例 的 集合 .实例 集 
合 上 的 目标 函数 、 候 选 假设 的 集合 以 及 训练 样 例 的 集合 。 以 这 种 一 般 形 式 定义 的 EnjoySport 
概念 学 习 任务 见 表 2-2。 
表 2.2 EnjoySport 概念 学 习 任务 
OCH: 
@ 实例 集 :可 能 的 日 子 ,每 个 日 子 由 下 面 的 属性 描述 : 
© Sky( 可 取 值 为 Sunny, Cloudy 和 Rainy) 
© hirTemp( 可 取 值 为 Warm 和 Cold) 
@ Humidity( 可 取 值 为 Normal 和 High) 
@ Wind( 可 取 值 为 Strong 和 Weak) 
@ Water( 可 取 值 为 Warm 和 Cool) 
© Forecast (可 取 值 为 Same 和 Change) 
人 @ 假设 集 总 :每 个 假设 描述 为 6 个 属性 Sky, AirTemp, Humidity, Wind, Water 和 Forecast 的 值 约束 的 合 
取 。 约 束 可 以 为 “?"( 表 示 接 受 任意 值 ),“8”( 表 示 拒 绝 所 有 值 ), 或 一 特定 值 
@ 目标 概念 c: EnjoySport: X-~|0, 1} 
@ 训练 样 例 集 D: 目 标 函 数 的 正 例 和 反例 ( 见 表 2-1) 
ORF: 
@ H 中 的 一 假设 ,使 对 于 PER x, h(a) = cla) 


2.2.1 术语 定义 


在 本 书 中 ,我 们 使 用 以 下 的 术语 来 讨论 概念 学 习 问题 。 概 念 定义 在 一 个 实例 (instance) 集 
合 之 上 ,这 个 集合 表示 为 X ERP, X 是 所 有 可 能 的 日 子 ,每 个 日 子 由 Sky、AirTemp、 
Humidity , Wind , Water 和 Forecast 六 个 属性 表示 。 待 学 习 的 概念 或 函数 称 为 目标 概念 〈tar- 
get concept) , 记 作 c。 一 般 来 说 ,c 可 以 是 定义 在 实例 集 X 上 的 任意 布尔 函数 , 即 c: X10, 
1|。 在 这 个 例子 里 ,目标 概念 对 应 于 属性 EnjoySport WECH EnjoySport = Yes 时 c(x)=1， 
X EnjoySport = No 时 ,c(x)=0)。 

在 学 习 目 标 概 念 时 ,必须 提供 一 套 训 练 样 例 (training examples) ,每 个 样 例 为 X 中 的 一 个 
实例 x 以 及 它 的 目标 概念 值 c( x )( 如 表 2-1 中 的 训练 样 例 )。 对 于 c(%)=1 的 实例 被 称 为 正 
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4 (positive example) ,或 称 为 目标 概念 的 成 员 。 对 于 c(x) = 0 的 实例 为 反例 ( negative exam- 
ple) ,或 称 为 非 目标 概念 成 员 。 经 常 可 以 用 序 偶 (x,c(x)) 来 描述 训练 样 例 , 表 示 其 包含 了 实 
例 x 和 目标 概念 值 c(x)。 符 号 D 用 来 表示 训练 样 例 的 集合 。 

一旦 给 定 目标 概念 的 训练 样 例 集 ,学 习 器 面临 的 问题 就 是 假设 或 估计 ec。 使 用 符号 H 
来 表示 所 有 可 能 假设 (all possible hypotheses) 的 集合 ,这 个 集合 才 是 为 确定 目标 概念 所 考虑 的 
范围 。 通 常 HH 依 设计 者 所 选择 的 假设 表示 而 定 。# 中 每 个 的 假设 疡 表示 并 上 定义 的 布尔 函 
数 , 即 A:X-~10,11。 机 器 学 习 的 目标 就 是 寻找 一 个 假设 h, EME OX 中 的 所 有 x ,h(x)= 
e(x)> 


2.2.2 归纳 学 习 假 设 


机 器 学 习 的 任务 是 在 整个 实例 集合 X 上 确定 与 目标 概念 。 相同 的 假设 ,然而 我 们 对 于 
c 仅 有 的 信息 只 是 它 在 训练 样 例 上 的 值 。 因 此 ,归纳 学 习 算法 最 多 只 能 保证 输出 的 假设 能 与 
训练 样 例 相 拟 合 。 如 果 没 有 更 多 的 信息 ,我 们 只 能 假定 ,对 于 未 见 实例 最 好 的 假设 就 是 与 训练 
数据 最 佳 拟 合 的 假设 。 这 是 归纳 学 习 的 一 个 基本 假定 ,本 书 中 将 对 此 做 更 多 的 阐述 。 这 里 我 
们 只 是 简单 提 及 ,第 5.6、7 章 将 更 形式 地 和 定量 地 审定 和 分 析 这 一 假定 。 

归纳 学 习 假设 ” 任 一 假设 如 果 在 足够 大 的 训练 样 例 集中 很 好 地 逼近 目标 函数 , 它 也 能 在 
未 见 实 例 中 很 好 地 逼近 目标 函数 。 


2.3 作为 搜索 的 概念 学 习 


概念 学 习 可 以 看 作 是 一 个 搜索 的 过 程 ,范围 是 假设 的 表示 所 隐 含 定义 的 整个 空间 。 搜 索 
的 目标 是 为 了 寻找 能 最 好 地 拟 合 训练 样 例 的 假设 。 必 须 注意 到 , 当 假 设 的 表示 形式 选 定 后 , 那 
么 也 就 隐 含 地 为 学 习 算 法 确定 了 所 有 假设 的 空间 。 这 些 假 设 是 学 习 程序 所 能 表示 的 ,也 是 它 
能 够 学 习 的 。 考 虑 在 EnjoySport 学 习 任务 中 的 实例 集合 X 和 假设 集合 万。 如 果 属 性 Sky 有 
3 种 可 能 的 值 ,而 AirTemp , Humidity, Wind , Water 和 Forecast 都 只 有 两 种 可 能 值 , 则 实例 
空间 包含 了 3x2x2x2x2x2=96 种 不 同 的 实例 。 类 似 的 计算 可 得 ,在 假设 空间 H 中 ， 
有 5x4x4x4x4x4=5120 种 语法 不 同 (syntactically distinet) 的 假设 。 然 而 ,注意 到 包含 有 
符号 的 假设 代表 空 实例 集合 , 即 它们 将 每 个 实例 都 分 类 为 反例 。 因 此 ,语义 不 同 (semanti- 
cally distinct) 的 假设 只 有 1+4x3x3x3x3x3=973 个 。 这 里 的 EnjoySport 例子 是 一 个 非 
常 简单 的 学 习 任 务 , 它 的 假设 空间 相对 较 小 且 有 限 。 多 数 实际 的 学 习 任务 包含 更 大 的 有 时 是 
无 限 大 的 假设 空间 。 

如 果 把 学 习 看 作 是 一 个 搜索 问题 ,那么 很 自然 ,对 学 习 算 法 的 研究 需要 考查 假设 空间 搜索 
的 不 同 策略 。 特 别 引 起 我 们 兴趣 的 算法 应 能 有 效 地 搜索 非常 大 的 或 无 限 大 的 假设 空间 ,以 找 
到 最 佳 拟 合 训练 数据 的 假设 。 


假设 的 一 般 到 特殊 序 


许多 概念 学 习 算法 中 ,搜索 假设 空间 的 方法 依赖 于 一 种 针对 任意 概念 学 习 都 很 有 效 的 结 
构 : 假 设 的 一 般 到 特殊 序 关系 。 利 用 假设 空间 的 这 种 自然 结构 ,我 们 可 以 在 无 限 的 假设 空间 中 
进行 彻底 的 搜索 ,而 不 需要 明确 地 列举 所 有 的 假设 。 为 说 明 一 般 到 特殊 序 关系 ,考虑 以 下 两 个 
假设 : 
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hy = (Sunny, 2, 2, Strong, ?, ?) 

hy = (Sunny, ?, ?, 2, 2, 7) 
哪些 实例 可 被 hi 和 hs 划分 为 正 例 ?由 于 h 包含 的 实例 约束 较 少 , 它 划 分 出 的 正 例 也 较 
多 。 实 际 上 ,任何 被 hi 划分 为 正 例 的 实例 都 会 被 hs 划分 为 正 例 ,因此 ,我 们 说 hs E hi 更 一 
AK 
直观 上 的 “ 比 …… 更 一 般 " 这 种 关系 可 以 有 如 下 精确 定义 。 首 先 ,对 X 中 的 任意 实例 x 和 
H 中 的 任意 假设 ,我 们 说 当 且 仅 当 h(x)=1 时 x 满足 hh。 现 在 以 实例 集合 的 形式 定义 一 个 
more _ general _ than _or _equal _ to 的 关系 :给 定 假 设 h; All hy, hj more _ general _ than _or _ 

equal _ to hs 当 且 仅 当 任意 一 个 满足 h 的 实例 同时 也 满足 名 。 


EX: $ h Mh, 为 在 XX 上 定义 的 布尔 消 数 。 称 hmore _ general _than _or _equal _ to 
WORE hy>, h), SARS 
(VxEXN (h(x)= D>(h (x)=1)] 


有 必要 考虑 一 假设 严格 地 比 另 一 假设 更 一 般 的 情形 。 因 此 ,我们 说 h; 严格 的 more _ gen- 
eral _than h (BE h; > hr), SAMS (hye ghi) A Ch, P Ay). Ba EIU MBNA 
“heere 更 特殊 ”为 h; more _ specific _ than hy, 当 h, more _ general _ than hio 

为 说 明 这 些 定义 ,考虑 EnjoySport 例子 中 的 3 个 假设 hy 、hs、h3, 如 图 2_1 所 示 。 这 三 个 
假设 是 如 何 由 宇 。 关系 相关 联 起 来 的 ? 如 前 所 述 ,hs 比 hi 更 一 般 是 因为 每 个 满足 hi 的 实例 
都 满足 hs。 与 此 相似 ,h2 也 比 hs 更 一 般 。 注 意 A, 和 hs 之 间 相 互 之 间 不 存在 >。 关系 ,虽然 
满足 这 两 个 假设 的 实例 有 交 秋 ,但 没有 一 个 集合 完全 包含 男 一 个 集合 。 注 意 二 。 和 > 。 关系 的 
定义 独立 于 目标 概念 。 它 们 只 依赖 于 满足 这 两 个 假设 的 实例 , 而 与 根据 目标 概念 进行 的 实例 
分 类 无 关 。 用 形式 化 的 语言 来 说 ,> 。 关系 定义 了 假设 空间 HH 上 的 一 个 偏 序 ( 即 这 个 关系 是 自 
反 、 反 对 称 和 传递 的 ) 。 偏 序 关 系 的 含义 (对 应 于 全 序 ) 是 ,可 能 存在 像 hi 和 hs 这 样 的 一 对 假 
B, (hi F h3) MAC hs > hy) 0 

XAR 假设 入 用 





特殊 


= <Sunny, Warm, High, Strong, Cool, Same> h = <Sunny, ?, ?, Strong, ?, 7> 
= <Sunny, Warm, High, Light, Warm, Same> h,= <Sunny, ?, ?, ?, ?, ?> 
h,= <Sunny, ?, ?, ?, Cool, ?> 


左边 的 方 框 代表 所 有 实例 的 集合 X EARDERE BRES Ho AARRE X 中 某 个 子 
集 一 一 即 被 此 假设 划分 为 正 例 的 集合 。 连 接 假设 的 箭头 代表 more _ general _than 关系 。 箭 头 所 指 为 较 特 殊 的 
假设 。 注 意 到 k 对 应 的 实例 子 集 包 含 了 hi 对 应 的 实例 子 集 ,因此 ho more _ general _than h, 


2-1 实例 、 假 设 和 more _general _ than 关系 
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>, 关系 很 重要 ,因为 它 在 假设 空间 H 上 对 任意 概念 学 习 问 题 提供 了 一 种 有 效 的 结构 。 
后 面 的 章节 将 阐述 概念 学 习 算 法 如 何 利用 这 一 偏 序 结构 有 效 地 搜索 假设 空间 。 


2.4 FIND-S: 寻 找 极 大 特殊 假设 


如 何 使 用 more _ general _than 偏 序 来 搜索 与 训练 样 例 相 一 致 的 假设 呢 ? 一 种 办 法 是 从 
H 中 最 特殊 假设 开始 ， 然 后 在 该 假设 覆盖 正 例 失败 时 将 其 一 般 化 ( 当 一 假设 能 正确 地 划分 一 
个 正 例 时 , 称 该 假设 “覆盖 "该 正 例 )。 使 用 偏 序 实现 的 FrNp-S 算法 的 精确 描述 见 表 2-3。 


表 2-3 FIND-S 算法 


1. 将 中 初始 化 为 妃 中 最 特殊 假设 
2. 对 每 个 正 例 x 
@ 对 4 的 每 个 属性 约束 ai 
如 果 x 满足 a; 
那么 不 做 任何 处 理 
否则 将 hFa 替换 为 x 满足 的 另 一 个 更 一般 约束 
3. 输出 假设 


为 说 明 这 一 算法 ,假定 给 予 学 习 器 的 一 系列 训练 样 例如 表 2-1 所 示 。FIND-S 的 第 一 步 是 
将 h 初始 化 为 H 中 最 特殊 的 假设 : 1 
h~(9,6,8,8,9,0) 

在 观察 表 2-1 中 第 一 个 训练 样 例 时 ， 它 刚好 是 个 正 例 ， 很 清楚 ， 这 时 的 太 特 殊 了 。 上 4h 
中 的 每 一 个 8 都 不 满足 该 样 例 的 约束 ， 因 此 ， 每 个 属性 都 被 蔡 换 成 能 满足 该 例 的 另 一 个 更 
一 般 的 值 约束 ， 也 就 是 这 一 样 例 的 属性 值 本 身 : 

h<< Sunny, Warm, Normal, Strong, Warm, Same) 

这 个 h 仍旧 太 特 殊 了 , 它 把 除了 第 一 个 样 例 以 外 的 所 有 实例 都 划分 为 反例 。 下 一 步 ,第 2 
个 训练 样 例 ( 仍 然 为 正 例 ) 迫 使 该 算法 进一步 将 疡 泛 化 。 这 次 使 用 “? "代替 h 中 不 能 被 新 样 例 
”满足 的 属性 值 ,这 样 假设 变 为 : 

h<( Sunny, Warm, ?, Strong, Warm, Same) 

然后 处 理 第 三 个 训练 样 例 ,这 是 一 个 反例 ,h 不 变 。 实 际 上 ,FINp-S 算法 简单 地 忽略 每 一 
个 反例 ! 这 一 开始 似乎 有 点 奇怪 。 注 意 ,这 时 假设 仍然 与 新 的 反例 一 致 ( 即 A 能 将 此 例 正 
确 地 划分 为 反例 ) ,因此 不 需要 对 h 作 任 何 更 改 。 一 般 情况 下 ,只 要 我 们 假定 假设 空间 H 确实 
包含 真正 的 目标 概念 c ,而 且 训 练 样 例 不 包含 错误 ,那么 当前 的 假设 h 不 需要 因 反 例 的 出 现 而 
更 改 。 原 因 在 于 当前 假设 A EH 中 与 所 观察 到 的 正 例 相 一 致 的 最 特殊 的 假设 ,由 于 假定 目标 
概念 c 在 HH 中, 而且 它 一 定 是 与 所 有 正 例 一 致 的 ,那么 。 一 定 比 疡 更 一 般 , 而 目标 概念 “ 不 会 
覆盖 一 个 反例 ,因此 h 也 不 会 (由 more _general _than 的 定义 )。 因 此 ,对 反例 ,h 不 需要 作出 
任何 更 改 。 

接着 完成 FINp-S 算法 ,第 四 个 正 例 使 得 h 更 一 般 : 

h<«-(Sunny, Warm, ?, Strong, ?, ?) 

FIND-S 算法 演示 了 一 种 利用 more _ general _ than 偏 序 来 搜索 假设 空间 的 方法 。 这 一 搜 

索 沿 着 偏 序 链 ,从 较 特 殊 的 假设 逐渐 转移 到 较 一 般 的 假设 。 图 2-2 说 明了 在 实例 和 假设 空间 











20 机 器 学 也 





中 的 这 种 搜索 过 程 。 在 每 一 步 ,假设 只 在 需要 覆盖 新 的 正 例 时 被 泛 化 。 因 此 ,每 一 步 得 到 的 假 
设 都 是 在 那 一 点 上 与 训练 样 例 一 致 的 最 特殊 的 假设 。 这 也 是 其 名 字 FiNp-S 的 由 来 。 概 念 学 
习 的 思想 在 许多 不 同 的 算法 中 用 到 ,它们 使 用 了 同样 的 more _ general _ than 偏 序 。 一 部 分 算 
法 在 本 章 讨论 , 另 一 些 放 在 第 10 章 。 

FIND-S 算法 的 重要 特点 是 :对 以 属性 约束 的 合 取 式 描述 的 假设 空间 (如 , EnjoySport 中 的 
H),Finv-S 保证 输出 为 H 中 与 正 例 一 致 的 最 特殊 的 假设 。 只 要 正确 的 目标 概念 包含 在 H P 
并 且 训 练 数据 都 是 正确 的 ,最 终 的 假设 也 与 所 有 反例 一 致 。 然 而 ,这 一 学 习 算 法 仍 存在 一 些 未 
解决 的 问题 : 

e@ 学 习 过 程 是 否 收敛 到 了 正确 的 目标 概念 ? 虽然 FIND-S 找到 了 与 训练 数据 一 致 的 假设 ， 

”但 没 办 法 确定 它 是 否 找到 了 惟一 合适 的 假设 ( 即 目标 概念 本 身 ) ,或 者 说 是 否 还 有 其 他 

可 能 的 假设 。 我 们 希望 算法 知道 它 能 否 收敛 到 目标 概念 ,如 果 不 能 ,至 少 要 描述 出 这 种 
不 确定 性 。 

e@ 为 什么 要 用 最 特殊 的 假设 。 如 果 有 多 个 与 训练 样 例 一 致 的 假设 , FINp-S 只 能 找到 最 特 
殊 的 。 为 什么 我 们 偏好 最 特殊 的 假设 ,而 不 选 最 一 般 的 假设 ,抑或 一 般 程度 位 于 两 者 之 
间 的 某 个 假设 。 

o 训练 样 例 是 否 相互 一 致 ? 在 多 数 实际 的 学 习 问题 中 ,训练 数据 中 常 出 现 某 些 错 误 或 品 
声 ,这 样 的 不 一 致 的 训练 集 将 严重 破坏 FiNp-S 算法 ,因为 它 忽 路 了 所 有 反例 。 我 们 期 
望 的 算法 至 少 能 检测 出 训练 数据 的 不 一 致 性 ,并 且 最 好 能 容忍 这 样 的 错误 。 

© 如 果 有 多 个 极 大 特殊 假设 怎么 办 ? TE EnjoySport 任务 的 假设 语言 H 中 ,总 有 一 个 惟一 
的 最 特殊 假设 与 训练 数据 一 致 。 然 而 ,对 其 他 一 些 假设 空间 (后 面 将 讨论 到 ) ,可 能 有 多 
个 极 大 特殊 假设 。 这 种 情况 下 ,FIND-S 必须 被 扩展 ,以 允许 其 在 选择 怎样 泛 化 假设 的 路 
径 上 回溯 ,以 容纳 目标 假设 位 于 偏 序 结构 的 另 一 分 支 上 的 可 能 性 。 更 进一步 ,我 们 可 以 
定义 一 个 不 存在 极 大 特殊 假设 的 假设 空间 ,然而 ,这 是 一 个 更 理论 性 的 问题 而 不 是 实践 


问题 (见习 题 2.7)。 
实例 集 X BMH 





ho = <ð, Ø, D, D, D, D> 
x1 = <Sunny Warm Normal Strong Warm Same>, + h = <Sunny Warm Normal Strong Warm Same> 
x2= <Sunny Warm High Strong Warm Same>, + hy = <Sunny Warm ? Strong Warm Same> 
43% <Rainy Coid High Strong Warm Change>, - A, = <Sunny Warm ? Strong Warm Same> 
x, = <Sunny Warm High Strong Cool Change>, + hy = <Sunny Warm ? Strong ? ?> 


搜索 开始 于 万 中 最 特殊 的 假设 ho, 然 后 根据 训练 样 例 逐 渐 考 虑 更 一 般 的 假设 (hi 到 hs。)。 在 实例 空间 图 中 , 正 
例 被 标 以 “+”, 反 例 标 以 “-” ,而 没有 包含 在 训练 样 例 中 的 实例 则 以 实心 加 点 表示 


图 2-2 FIND-S 中 的 假设 空间 搜索 
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2.5 变型 空间 和 候选 消除 算法 


本 节 描 述 的 是 概念 学 习 的 另 一 种 途径 即 候选 消除 (CANDIDATE-ELIMINATION) 算 法 。 它 
能 解决 Finp-S 中 的 若干 不 足 之 处 。FiND-S 输出 的 假设 只 是 H 中 能 够 拟 合 训练 样 例 的 多 个 假 
设 中 的 一 个 。 而 在 候选 消除 算法 中 ,输出 的 是 与 训练 样 例 一 致 的 所 有 假设 的 集合 。 令 人 惊奇 
的 是 ,候选 消除 算法 在 描述 这 一 集合 时 不 需要 明确 列举 其 所 有 成 员 。 这 也 归功 于 more _ gen- 
eral _than 偏 序 结构 。 在 这 里 需要 维护 一 个 一 致 假设 集合 的 简洁 表示 ,然后 在 遇 到 新 的 训练 
样 例 时 逐步 精 化 这 一 表示 。 

候选 消除 算法 的 应 用 有 :从 化 学 质谱 分 析 (chemical mass spectroscopy ) 中 学 习 规 则 性 
( Mitchell 1979) 和 学 习 启 发 式 搜索 的 控制 规则 ( Mitchell et al. 1983)。 然 而 ,候选 消除 算法 和 
FIND-S 算法 的 实际 应 用 都 受到 限制 ,因为 它们 在 训练 数据 含有 曲 声 时 性 能 较 差 。 在 这 里 介绍 
候选 消除 算法 的 目的 是 为 引入 若干 基本 的 机 器 学 习 问 题 提 供 一 个 良好 的 概念 框架 。 本 章 其 余 
部 分 将 展示 这 一 算法 及 相关 的 问题 。 从 下 一 章 开 始 将 考察 对 有 噪声 数据 的 处 理 上 更 常用 的 学 
习 算 法 。 


2.5.1 表示 


候选 消除 算法 寻找 所 有 与 训练 样 例 一 致 的 假设 。 为 精确 描述 这 一 算法 ,这 里 先 引入 一 些 
基本 的 定义 。 首 先 , 当 一 个 假设 能 正确 分 类 一 组 样 例 时 ,我 们 称 这 个 假设 是 与 这 些 样 例 一 致 的 


(consistent) 。 


EX: 一 个 假设 h 与 训练 样 例 集 合 D 一 致 , 当 生 仅 当 对 D 中 每 一 个 样 例 (x,c(%)》 都 有 

h(x)=c(x)。 
Consistent(h,D)=(Y(x,c(x)) E D) h(x) =c(x) 

注意 ,这 里 定义 的 一 致 与 前 面 定义 的 满足 是 不 同 的 。 一 个 样 例 x Ehl x) = 1 时 称 为 满足 
假设 大, 不论 x 是 目标 概念 的 正 例 还 是 反例 。 然 而 ,这 一 样 例 是 否 与 疡 一致 则 与 目标 概念 有 
关 , 即 是 否 h(x)=c(x)。 

候选 消除 算法 能 够 表示 与 训练 样 例 一 致 的 所 有 假设 。 在 假设 空间 中 的 这 一 子 集 被 称 为 关 
于 假设 空间 H 和 训练 样 例 忆 的 变型 空间 (version space) ,因为 它 包含 了 目标 概念 的 所 有 合理 
的 变型 。 

定义 :关于 假设 空间 H 和 训练 样 例 集 D 的 变型 空间 ,标记 为 VSg,p, 是 H 中 与 训练 样 例 


D 一 致 的 所 有 假设 构成 的 子 集 。 
VS, n=}| h€ HI Consistent(h, D)} 


2.5.2 列表 后 消除 算法 


显然 ,表示 变型 空间 的 一 种 方法 是 列 出 其 所 有 成 员 。 这 样 可 产生 一 个 简单 的 算法 , 称 为 列 
表 后 消除 (LIST-THEN-ELIMINATE) 算 法 ,其 定义 见 表 2-4。 














表 2-4 列表 后 消除 算法 
列表 后 消除 算法 
1. 变型 空间 VersionSpace 一 包含 中 所 有 假设 的 列表 
2. 对 每 个 训练 样 例 (x，c(x)) 
从 变型 空间 中 移 除 所 有 h(x) 关 clx) 的 假设 h 
3. 输出 VersionSpace 中 的 假设 列表 


列表 后 消除 算法 首先 将 变型 空间 初始 化 为 包含 H 中 所 有 的 假设 ,然后 从 中 去 除 与 任 一 训 
练 样 例 不 一 致 的 假设 。 包 含 候选 假设 的 变型 空间 随 着 观察 到 越 来 越 多 的 样 例 而 缩减 ,直到 只 
剩 一 个 (理想 情况 下 ) 与 所 有 样 例 一 致 的 假设 ,这 可 能 就 是 所 要 的 目标 概念 。 如 果 没 有 充足 的 
数据 使 变型 空间 缩减 到 只 有 一 个 假设 ,那么 该 算法 将 输出 一 个 集合 ,这 个 集合 中 所 有 的 假设 与 
训练 样 例 都 一 致 。 

原则 上 ,只 要 假设 空间 是 有 限 的 ,就 可 使 用 列表 后 消除 算法 。 它 具有 很 多 优点 ,如 能 保证 
得 到 所 有 与 训练 数据 一 致 的 假设 。 但 是 ,这 一 算法 要 求 非常 繁琐 地 列 出 #H 中 所 有 假设 ,这 对 
于 大 多 数 实际 的 假设 空间 是 不 现实 的 要 求 。 


2.5.3 变型 空间 的 更 简洁 表示 


候选 消除 算法 与 上 面 的 列表 后 消除 算法 遵循 同样 的 原则 。 然 而 , 它 使 用 一 种 更 简洁 的 变 
型 空间 表示 法 。 在 此 ,变型 空间 被 表示 为 它 的 极 大 一 般 的 和 极 大 特殊 的 成 员 。 这 些 成 员 形成 
了 一 般 和 特殊 边界 的 集合 ,这 些 边界 在 整个 偏 序 结构 中 划分 出 变型 空间 。 

为 说 明 变 型 空间 的 这 种 表示 ,再 一 次 考虑 表 2-2 中 描述 的 EnjoySport 概念 学 习 问 题 。 对 
FR 2-1 PAH 4 个 训练 样 例 , FIND-S 输出 假设 : 

h=(Sunny, Warm, ?, Strong, ?, 2) 

实际 上 ,这 只 是 H 中 与 训练 样 例 一 致 的 所 有 6 个 假设 之 一 。 所 有 6 个 假设 在 图 2-3 PR 
示 出 ,它们 构成 了 与 该 数据 集合 和 假设 表示 相对 应 的 变型 空间 。6 个 假设 之 间 的 箭头 表示 实 
例 间 的 more _ general _ than 关系 。 候选 消除 算法 通过 使 用 极 大 一 般 成 员 ( 在 图 2-3 中 标 为 
G6) 和 极 大 特殊 成 员 ( 图 中 标 为 S) 来 表示 变型 空间 。 只 给 定 这 两 个 集合 SA C ,就 可 以 列举 出 
变型 空间 中 的 所 有 成 员 ,方法 是 使 用 一 般 到 特殊 偏 序 结构 来 生成 SAC 集合 之 间 的 所 有 假 


设 。 
S: | { <Sunny, Warm, ?, Strong, ?. ?> } 


-一 | 一 


<Sunny, ?, ?, Strong, 2 ?>  <Sunny, Warm, ?, ?, 2 ?> <2 Warm, ?, Strong, 2 ?> 


KAN 





:| (<Sunny, 7, ?, 7, 2 ?>, <?, Warm, ?, 2 ?, ?> ] 





变型 空间 中 包含 了 所 有 6 个 假设 ,但 可 以 简单 地 用 S 和 C 来 表示 。 箭头 表示 实例 间 的 more _ general _ than 关 
系 。 这 个 变型 空间 对 应 于 表 2-1 中 描述 的 EnjoySport 概念 学 习 问 题 及 其 训练 样 例 


图 2-3 变型 空间 及 其 一 般 和 特殊 边界 集合 
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可 以 直观 地 看 出 ,使 用 极 大 一 般 和 极 大 特殊 集合 表示 变型 空间 的 作法 是 合理 的 。 下 面 我 
们 精确 地 定义 SAG 这 两 个 边界 集合 ,并 且 证 明 它 们 确实 代表 了 变型 空间 。 


定义 :关于 假设 空间 有 和 训练 数据 DD 的 一 般 边 界 (general boundary) G ,是 在 H PSD 4 
一 致 的 极 大 一 般 (maximally general) 成 员 的 集合 。 
G=| gE€H | Consistent(g, D)A( 3g EH)(g > 8g)A Consistent ( g’ ,D) || 


定义 : 关于 假设 空间 A 和 训练 数据 D 的 特殊 边界 (specific boundary) $ ,是 在 H PHD 
相 一 致 的 极 大 特殊 (maximally specific) 成 员 的 集合 。 
S=}|s€H | Consistent(s, D)A(79s'€ H)[(s >, 8’) A Consistent(s’, D)}} 


只 要 集合 CAS 被 良好 地 定义 了 (见习 题 2.7) ,它们 就 完全 规定 了 变型 空间 。 这 里 还 可 
以 证 明 ,变型 空间 的 确切 组 成 是 : 6 中 包含 的 假设 , S 中 包含 的 假设 以 及 G 和 5 之 间 偏 序 结构 
所 规定 的 假设 。 


定理 2.1: 变 型 空间 表示 定理 令 X 为 一 任意 的 实例 集合 , H 为 X 上 定义 的 布尔 假设 的 集合 。 
S e: 《一 {0, 1| 为 X 上 定义 的 任 一 目标 概念 ,并 令 D 为 任 一 训练 样 例 的 集合 (x，c(x))1。 对 
KAH X,H,c, D 以 及 良好 定义 的 S$ 和 6: 

VSpp= | hEH1(ISES) (IgE GC) (ge hey)! 

证 明 : 为 证 明 该 定理 只 需 证 明 ;(1) 每 一 个 满足 上 式 右 边 的 h 都 在 VSg,p 中 ,(2) VSy.p 的 每 个 
成 员 都 满足 等 式 右边 。 为 证 明 (1) , 令 g 为 6 中 任意 一 个 成 员 ,s AS 中 任 一 成 员 ,h 为 有 的 任 一 
RAMH g>, hago H 5 的 定义 ,s 必须 被 D 中 所 有 的 正 例 满足 。 因 为 hes, hh 也 被 D 中 所 有 
正 例 满足 。 相 似 地 ,由 6 的 定义 ,g 必须 不 被 D 中 任 一 反例 满足 , 且 由 于 go hh 也 不 被 D 中 所 
有 反例 满足 。 由 于 h 被 D 中 所 有 正 例 满足 且 不 被 其 中 所 有 反例 满足 ,因此 与 D 一 致 ,因此 有 是 
VSp,p 的 成 员 。 这 证 明了 步骤 (1)。(2) 的 讨论 稍微 有 些 复杂 ,可 以 使 用 反 证 法 ,假定 YSwp 中 某 
一 六 不 满足 等 式 右 边 ,那么 将 产生 矛盾 (见习 题 2.6)。 


2.5.4 候选 消除 学 习 算法 


候选 消除 算法 计算 出 的 变型 空间 ,包含 # 中 所 有 与 训练 样 例 的 观察 序列 一 致 的 假设 。 开 始 ， 
变型 空间 被 初始 化 为 H 中 所 有 假设 的 集合 。 即 将 6 边界 集合 初始 化 为 H 中 最 一 般 的 假设 : 
Co<|(?,，?，?，?，?，?)| 
并 将 5S 边界 集合 初始 化 为 最 特殊 (最 不 一 般 ) 的 假设 : 
So 1(0,8,8,8,8,0)} 
这 两 个 边界 集合 包含 了 整个 假设 空间 。 因 为 H 中 所 有 假设 都 比 So 更 一 般 , 且 比 Co 更 特 
殊 。 算 法 在 处 理 每 个 训练 样 例 时 , S 和 G 边界 集合 分 别 被 泛 化 和 特殊 化 ,从 变型 空间 中 逐步 
消去 与 样 例 不 一 致 的 假设 。 在 所 有 训练 样 例 处 理 完 后 ,得 到 的 变型 空间 就 包含 了 所 有 与 样 例 
一 致 的 假设 ,而 且 只 包含 这 样 的 假设 。 这 一 算法 在 表 2-5 中 描述 。 
表 2-5 使 用 变型 空间 的 候选 消除 算法 . 
将 6 集合 初始 化 为 也 中 极 大 一 般 假设 
将 5 集合 初始 化 为 中 极 大 特殊 假设 
对 每 个 训练 样 例 d, 进 行 以 下 操作 : 
@ 如果 d 是 一 正 例 
@ 从 G 中 移 去 所 有 与 4 不 一 致 的 假设 
@ 对 5 中 每 个 与 d 不 一 致 的 假设 
OWS PREs 


0 
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GE) 


@ 把 s 的 所 有 的 极 小 泛 化 式 h 加 入 到 5 中 ,其 中 所 满足 
全 与 4 一致 ,而 且 6 的 某 个 成 员 比 更 一 般 
OWS 中 移 去 所 有 这 样 的 假设 : 它 比 S 中 另 一 假设 更 一 般 
多 如果 d 是 一 个 反例 
@ s PRAMAS d 不 一 致 的 假设 
Ox 6 中 每 个 与 a 不一致 的 假设 & 
OW GPBE se 
O FE g 的 所 有 的 极 小 特殊 化 式 疡 加 入 到 6 PAP ARR 
会 与 4d 一致, 而且 5 的 某 个 成 员 比 上 更 特殊 
OKC 中 移 去 所 有 这 样 的 假设 : 它 比 6 中 男 一 假设 更 特殊 


注 ， 注意 正 例 和 反例 是 怎样 同时 影响 5 和 GC 的。 


注意 算法 中 的 操作 ,包括 对 给 定 假设 的 极 小 泛 化 式 和 极 小 特殊 化 式 的 计算 ,和 确定 那些 非 
极 小 和 非 极 大 的 假设 。 具 体 的 实现 当然 依赖 于 实例 和 假设 的 表示 方式 。 然 而 ,只 要 这 些 操 作 
被 良好 地 定义 了 ,该 算法 就 可 应 用 于 任意 概念 学 习 和 任意 假设 空间 。 在 以 下 将 实际 演示 算法 
的 运行 步骤 ,从 中 可 以 看 到 在 EnjoySport 这 个 例子 中 这 些 操 作 是 怎样 实现 的 。 


2.5.5 算法 的 举例 


图 2-4 演示 了 候选 消除 算法 应 用 到 表 2-1 中 前 两 个 训练 样 例 时 的 运行 步骤 。 如 上 所 述 ， 
边界 集合 先 被 初始 化 为 Go。 和 So, 分 别 代表 万 中 最 一 般 和 最 特殊 的 假设 。 

当 第 1 个 训练 样 例 出 现时 (这 里 为 一 正 例 ) ,候选 消除 算法 检查 S 边界 ,并 发 现 它 过 于 特 
殊 了 一 一 因为 它 不 能 覆盖 该 正 例 。 这 一 边界 就 被 修改 为 紧邻 的 更 一 般 的 假设 ,以 覆盖 新 的 样 
例 。 修 改 后 的 边界 在 图 2-4 中 显示 为 So G 边界 不 需要 修改 ,因为 Go 能 够 正确 地 覆盖 该 样 
例 。 当 处 理 第 2 个 训练 样 例 时 (也 是 一 个 正 例 ) ,同样 需要 将 $ 进一步 泛 化 到 S, G 仍旧 不 变 
(G2= C1= G0)。 注 意 ,对 前 两 个 正 例 的 处 理 非常 类 似 于 FiNp-S 算法 。 

在 前 两 步 的 算法 中 , 正 例 使 得 变型 空间 的 $ 边界 逐渐 泛 化 ,而 反例 扮演 的 角色 恰好 相反 ， 
使 得 G 边界 逐渐 特殊 化 。 考 虑 第 3 个 训练 样 例 ,如 图 2-5 所 示 。 这 一 反例 显示 , C 边界 过 于 
一 般 了 。 也 就 是 说 , C 中 的 假设 错误 地 将 该 例 判定 为 正 例 。 因 此 6 边界 中 的 假设 必须 被 特殊 
化 ,使 它 能 对 新 的 反例 正确 分 类 。 如 图 2-5 所 示 , 这 里 有 几 种 可 选 的 极 小 更 特殊 的 假设 。 这 些 
全 都 成 为 新 的 G3 边界 集合 的 成 员 。 

有 6 个 属性 可 以 用 来 使 C 特殊 化 ,为 什么 只 有 3 个 在 G3 POR? HEA h=(?, ?, Nor- 
mal, 2, 7, DE Gz 的 一 个 极 小 特殊 化 式 , 它 能 够 将 新 的 样 例 正确 地 划分 为 反例 ,但 它 不 在 
C3 中 。 将 这 一 假设 排除 在 外 的 原因 是 , 它 与 以 前 遇 到 的 正 例 不 一 致 。 在 算法 中 只 是 简单 地 判 
断 h 并 不 比 当 前 特殊 边界 S: 更 一 般 。 实 际 上 变型 空间 的 $ 边界 形成 了 以 往 正 例 的 摘要 说 
明 , 它 可 以 用 来 判断 任何 给 定 的 假设 是 否 与 以 往 样 例 一 致 。 根 据 定义 ,任何 比 $ 更 一 般 的 假 
设 能 够 覆盖 所 有 S 能 覆盖 的 样 例 , 即 以 往 的 所 有 正 例 。 同 样 , C 边界 说 明了 以 往 所 有 反例 的 
信息 。 任 何 比 6 更 特殊 的 假设 能 保证 与 所 有 反例 相 一 致 。 这 是 因为 根据 定义 , 任 一 假设 不 会 
覆盖 C 所 不 能 覆盖 的 样 例 。 
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KØ, Ø, S, Ø, 5, D>! 







S 1: | {(<Sunny, Warm, Normal, Strong, Warm, Same> } 


S2 :| {<Sunny, Warm, ?, Strong, Warm, Same>} 


训练 样 例 : 
1. <Sunny, Warm, Normal, Strong, Warm, Same>, Enjoy Sport = Yes 


2. <Sunny, Warm, High, Strong, Warm, Same>, Enjoy Sport = Yes 


So 和 Co 为 最 初 的 边界 集合 ,分别 对 应 最 特殊 和 最 一 般 假 设 。 训 练 样 例 ! 和 2 使 得 $ 边界 变 得 更 一 般 ,如 Fin 
S 算 法 中 一 样 ,这些 样 例 对 G 边界 没有 影响 


图 2-4 候选 消除 算法 步骤 i 


S2， S 3: | { <Sunny, Warm, ?, Strong, Warm, Same> } 





训练 样 例 : 


3. <Rainy, Cold, High, Strong, Warm, Change>, EnjoySport=No 
样 例 3 是 一 反例 , 它 把 C 边界 特殊 化 为 G3。 注 意 在 63 中 有 多 个 可 选 的 极 大 一 般 假设 
图 2-5 候选 消除 算法 步骤 2 


第 4 个 训练 样 例 如 图 2-6 所 示 ,使 变型 空间 的 $ 边界 更 一 般 化 。 它 也 导致 6 边界 中 的 一 
个 成 员 被 删除 ,因为 这 个 成 员 不 能 覆盖 新 的 正 例 。 最 后 这 一 动作 来 自 于 表 2-5 算法 中 “如 果 a 
是 一 正 例 "下 的 第 一 步骤 。 为 理解 这 一 步 的 原因 ,需要 考虑 为 什么 不 一 致 的 假设 要 从 CPB 
去 。 注 意 这 一 假设 不 能 再 被 特殊 化 ,因为 这 样 它 将 不 能 覆盖 新 的 样 例 。 它 也 不 能 被 泛 化 ,因为 
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按照 G 的 定义 ,任何 更 一 般 的 假设 至 少 会 覆盖 一 个 反例 。 这 样 , 这 一 假设 必须 从 G6 中 移 去 ， 
也 相当 于 移 去 了 变型 空间 的 偏 序 结构 中 的 一 个 分 支 。 


S 3: | {<Sunny, Warm, ?, Strong, Warm, Same>} 


S4: {<Sunny, Warm, ?, Strong, ?, ?>} 





G3: {<Sunny, 2 ?, ?, ?, ?> <?, Warm, ?, ?, 2 ?> <?, ?, ?, ?, ?, Same>) 


训练 样 例 : 
4.<Sunny, Warm, High, Strong, Cool, Change>, EnjoySport = Yes 


正 例 使 Ss 边界 更 一 般 , 从 S; 变 为 Si G3 的 一 个 成 员 也 必须 被 删除 ,因为 它 不 再 比 $4 边界 更 一 般 
图 2-6 候选 消除 算法 步骤 3 


在 处 理 完 这 4 个 样 例 后 ,边界 集合 Se 和 G4 划分 出 的 变型 空间 包含 了 与 样 例 一 致 的 所 有 
假设 的 集合 。 整 个 变型 空间 ,包含 那些 由 54 和 G4 界定 的 假设 都 在 图 2-7 中 显示 。 这 一 变型 
空间 不 依赖 于 训练 样本 出 现 的 次 序 ( 因 为 最 终 它 包 含 了 与 训练 样 例 集 一 致 的 所 有 假设 )。 如 果 
提供 更 多 的 训练 数据 , S 和 G 边界 将 继续 单调 移动 并 相互 靠近 ,划分 出 越 来 越 小 的 变型 空间 


来 。 
S 4: |{<Sunny, Warm, ?, Strong, ?, ?>} 


-一 | 一 


<Sunny, ?, ?, Strong, ?, ?> <Sunny, Warm, ?, ?, ?, ?> <?, Warm, ?, Strong, ?, ?> 


NUN 








:| {<Sunny, 7, ?, 2 2 ?>, <?, Warm, 2 ?, 2 ?>} 


图 2-7 EnjoySport 概念 学 习 问 题 中 的 最 终 的 变型 空间 


2.6 关于 变型 空间 和 候选 消除 的 说 明 
2.6.1 候选 消除 算法 是 否 会 收敛 到 正确 的 假设 
由 候选 消除 算法 得 到 的 变型 空间 能 够 收敛 到 描述 目标 概念 的 假设 的 条 件 是 :(1) 在 训练 样 
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例 中 没有 错误 。(2) H 中 确实 包含 描述 目标 概念 的 正确 假设 。 实 际 上 ,如 果 遇 到 新 的 训练 样 
例 , 可 以 监测 变型 空间 以 判定 其 与 真正 的 目标 概念 之 间 是 否 还 有 分 歧 , 以 及 为 精确 确定 目标 概 
念 还 需要 多 少 训练 样 例 。 当 5S 和 6 边界 集合 收敛 到 单个 的 可 确定 的 假设 时 , 目标 概念 才 真 正 
获得 。 

如 果 训练 数据 中 包含 错误 会 怎样 ? 比如 ,以 上 例子 中 第 二 个 样 例 被 错误 地 标 为 一 反例 。 
遗憾 的 是 ,这 种 情况 下 ,算法 肯定 会 从 变型 空间 中 删除 正确 的 目标 概念 。 因 为 它 会 删除 所 有 与 
样 例 不 一 致 的 假设 ,所 以 在 遇 到 这 一 错误 的 反例 时 ,算法 将 从 变型 空间 中 移 去 正确 的 目标 概 
念 。 当 然 ,如 果 给 定 足 够 的 训练 数据 ,最 终 ,我 们 会 发 现 $ 和 C 边界 收敛 得 到 一 个 空 的 变型 空 
间 ,从 而 得 知 训练 数据 有 误 。 空 的 变型 空间 表示 H 中 没有 假设 能 够 与 样 例 一 致 。 相 似 的 情形 
会 出 现在 另 一 种 环境 中 :训练 样 例 正 确 ,但 目标 概念 不 能 由 假设 表示 方式 所 描述 (比如 目标 概 
念 是 某 几 个 属性 特征 的 析 取 ,而 假设 空间 只 支持 合 取 的 形式 )。 以 后 我 们 将 详细 考虑 这 些 可 能 
性 。 有 前, 我们 只 考虑 样 例 数据 是 正确 的 并 且 目 标 概念 确实 在 假设 空间 中 。 


2.6.2 下 一 步 需要 什么 样 的 训练 样 例 


到 这 里 我 们 都 假定 训练 样 例 由 某 个 外 部 的 施 教 者 提供 。 假 想 学 习 器 可 以 主宰 实验 进程 ， 
下 一 步 它 要 自己 选择 一 个 实例 ,然后 从 外 界 ( 自然界 或 一 个 施 教 者 ) 获 得 该 实例 的 正确 分 类 结 
果 。 这 一 场景 可 分 为 两 种 情况 ,一 种 是 学 习 器 在 自然 界 中 进行 实验 (如 造 一 座 新 桥 , 然 后 让 自 
然 界 决定 其 是 否 牢固 ) ,或 在 一 个 施 教 者 指导 下 学 习 ( 提 出 一 座 新 桥梁 的 设计 ,然后 让 施 教 者 来 
判断 它 是 否 牢固 ) 。 我 们 这 里 用 查询 (query) 来 代表 学 习 器 建立 的 这 个 实例 ,然后 由 外 界 来 对 
它 分 类 。 

再 次 考虑 图 2-3 中 所 示 的 从 EnjoySport 的 4 个 样 例 中 学 习 到 的 变型 空间 。 这 时 学 习 器 怎 
样 能 提出 一 个 较 好 的 查询 ? 一 般 情况 下 怎样 采取 一 种 好 的 查询 策略 ? 显然 ,学 习 器 应 试图 在 
当前 变型 空间 中 选择 假设 ,以 进一步 划分 该 空间 。 因 此 ,需要 选择 的 实例 需 满 足 : 它 能 被 变型 
空间 中 一 些 假设 分 类 为 正 例 , 另 一 些 分 类 为 反例 。 其 中 一 个 这 样 的 实例 是 : 


(Sunny, Warm, Normal, Light, Warm, Same) 


注意 这 一 实例 满足 变型 空间 的 6 个 假设 中 的 3 个 。 如 果 施 教 者 将 实例 划分 为 正 例 ,变型 
空间 的 S 边界 就 需要 被 泛 化 。 相 反 ,如 果 施 教 者 划分 其 为 反例 , G 边界 需要 被 特 化 。 无 论 哪 
种 情况 ,机 器 将 能 够 学 到 更 多 的 知识 ,以 确定 目标 概念 并 将 变型 空间 缩小 到 原来 的 一 半 。 

一 般 来 说 ,概念 学 习 的 最 优 杏 询 策 略 ,是 产生 实例 以 满足 当前 变型 空间 中 大 约 半 数 的 假 
设 。 这样, 变型 空间 的 大 小 可 以 在 遇 到 每 个 新 样 例 时 减 半 , 正确 的 目标 概念 就 可 在 只 用 
T logal VS11 次 实验 后 得 到 。 这 有 点 像 玩 “20 问 "游戏 ,通过 问题 的 是 / 否 回答 逐渐 获得 问题 的 
最 终 答案 , 玩 20 问 游戏 的 策略 是 提 的 问题 最 好 能 把 候选 答案 减 半 。 虽 然 在 图 2-3 的 变型 空间 
中 ,我 们 可 以 生成 一 个 实例 将 其 精确 地 分 半 ,但 一 般 情况 下 ,可 能 无 法 构造 出 这 样 的 精确 分 半 
的 实例 。 这 样 ,查询 的 数目 可 能 会 大 于 T log21 VS11 次 。 


2.6.3 怎样 使 用 不 完全 学 习 概念 


在 上 面 的 例子 中 ,如 果 除 了 4 个 样 例 之 外 没有 更 多 的 训练 样 例 ,但 机 器 现在 要 对 未 见 过 的 
实例 进行 分 类 。 虽 然 图 2-3 的 变型 空间 中 仍 包 含 多 个 假设 , 即 目标 概念 还 未 完全 学 习 到 ,但 是 
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仍然 有 可 能 对 新 样 例 进行 一 定 可 信和 度 的 分 类 。 为 示范 这 一 过 程 ,假定 机 器 需要 对 表 2-6 中 的 4 
个 新 实例 进行 分 类 。 
R26 待 分 类 的 新 实例 








Instance Sky AirTemp Humidity Wind Water Forecast EnjoySport 
A Sunny Warm Normal Strong Cool Change ? 
B Rainy Cold Normal Light Warm Same ? 
C Sunny Warm Normal Light Warm Same ? 


D Sunny Cold Normal Strong Warm Same ? 


注意 ,虽然 实例 4 不 在 训练 样 例 中 ,但 当前 变型 空间 中 每 个 假设 ( 见 图 2-3) 都 将 其 分 类 
为 正 例 。 由 于 变型 空间 的 所 有 假设 一 致 同意 实例 4 为 正 例 , 学 习 器 将 4 划分 为 正 例 的 可 信 
度 , 与 只 有 单个 的 目标 概念 时 一 样 。 不 管 变型 空间 中 哪个 假设 最 终 成 为 目标 概念 , 它 都 会 将 其 
划分 为 正 例 。 进 一 步 讲 , 我 们 知道 不 需要 列举 变型 空间 中 所 有 的 假设 ,就 可 知道 每 个 假设 都 会 
将 其 划分 为 正 例 。 这 一 条 件 在 当 且 仅 当 实例 满足 $ 的 每 个 成 员 时 成 立 (为 什么 ?)。 原 因 是 变 
型 空间 中 的 其 他 每 个 假设 都 至 少 比 $ 的 某 个 成 员 更 一 般 。 由 我 们 的 more _ general _ than 定 
义 , 如 果 新 的 实例 满足 8 的 所 有 成 员 , 它 一 定 也 满足 这 些 更 一 般 的 假设 。 

同样 ,实例 B 被 变型 空间 中 的 每 个 假设 划分 为 反例 ,所 以 这 个 实例 可 被 放心 地 划分 为 反 
例 ,即使 概念 学 习 是 不 完全 的 。 对 这 一 条 件 进行 测试 的 有 效 方 法 是 ,判断 实例 不 满足 6 中 的 
所 有 成 员 ( 为 什么 ?)。 

实例 C 的 情况 有 所 不 同 。 变 型 空间 中 半数 的 假设 划分 其 为 正 例 ,半数 划分 为 反例 。 因 
此 ,学 习 器 无 法 可 信 地 分 类 这 一 样 例 , 除 非 提 供 更 多 的 训练 样 例 。 可 以 注意 到 ,实例 C 与 前 一 
节 提 出 的 一 个 最 优 查询 相同 。 这 是 可 以 预见 的 ,因为 最 有 分 类 歧义 性 的 实例 也 一 定 最 能 提供 
新 的 分 类 信息 。 

最 后 ,实例 D 在 变型 空间 中 被 两 个 假设 分 为 正 例 , 被 其 他 4 个 假设 分 为 反例 。 这 个 例子 
的 分 类 可 信 度 比 实 例 4 和 B 要 小 。 投 票选 举 要 倾向 于 反例 分 类 ,所 以 我 们 可 以 输出 拥有 最 大 
票数 的 分 类 ,还 可 附带 一 个 可 信和 度 比 例 以 表明 投票 的 倾向 程度 。 在 第 6 章 将 讨论 到 ,如 果 假 定 
H 中 所 有 假设 有 相等 的 先 验 概率 ,那么 投票 的 方法 能 得 到 新 实例 的 最 可 能 分 类 。 进 一 步 说 ， 
投 正 例 票 假设 所 占 的 比例 可 被 看 作 在 给 定 训练 数据 时 ,实例 为 正 例 的 可 能 性 。 


2.7 归纳 偏 置 


如 上 所 述 ,在 给 定 正确 的 训练 样 例 并 且 保 证 初始 假设 空间 包含 目标 概念 时 ,候选 消除 算法 
可 以 收敛 到 目标 概念 。 如 果 目 标 概念 不 在 假设 空间 中 怎么 办 ? 是否 可 设计 一 个 包含 所 有 假设 
的 空间 来 解决 这 一 困难 ? 假设 空间 的 大 小 对 于 算法 推广 到 未 见 实例 的 能 力 有 什么 影响 ?假设 
空间 的 大 小 对 所 需 训 练 样 例 的 数量 有 什么 影响 ? 这 些 都 是 归纳 推理 中 的 一 些 基 本 问题 。 这 里 
我 们 在 候选 消除 算法 中 考察 这 些 问题 。 然 而 ,此 处 分 析 中 得 到 的 结论 可 以 应 用 于 任意 的 概念 
学 习 系统 。 


2.7.1 一 个 有 偏 的 假设 空间 
如 果 想 保证 假设 空间 包含 目标 概念 ,一 个 明显 的 方法 是 扩大 假设 空间 ,使 每 个 可 能 的 假设 
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都 被 包含 在 内 。 再 一 次 使 用 EnjoySport 这 个 例子 ,其 中 我 们 将 假设 空间 限制 为 只 包含 属性 值 
的 合 取 。 由 于 这 一 限制 ,假设 空间 不 能 够 表示 最 简单 的 析 取 形式 的 目标 概念 ,如 “ Sky = Sunny 
或 Sky = Cloudy”。 实 际 上 ,如 果 给 定 以 下 三 个 训练 样 例 , 它 们 来 自 于 该 析 取 式 假 设 , 我 们 的 算 
法 将 得 到 一 个 空 的 变型 空间 。 





Example Sky AirTemp Humidity Wind Water Forecast EnjoyS port 
1 Sunny - Warm Normal Strong Cool Change Yes 
2 Cloudy Warm Normal Strong Cool Change Yes 
3 Rainy Warm Normal Strong Cool Change No 


之 所 以 不 存在 与 这 3 个 样 例 一 致 的 假设 的 原因 是 ,与 前 两 个 样 例 一 致 ,并 且 能 在 给 定 假设 
空间 H 中 表示 的 最 特殊 的 假设 是 : 
S2: (?, Warm, Normal, Strong, Cool, Change) 
这 一 假设 虽然 是 H 中 与 样 例 一 致 的 最 特殊 的 假设 , 它 仍然 过 于 一 般 化 了 : 它 将 第 3 个 样 
例 错误 地 划 为 正 例 。 问 题 在 于 ,我 们 使 学 习 器 偏向 于 只 考虑 合 取 的 假设 ,这 里 需要 表示 能 力 更 
强 的 假设 空间 。 


2.7.2 无 偏 的 学 习 器 


很 显然 ,为 了 保证 目标 概念 在 假设 空间 中 ,需要 提供 一 个 假设 空间 , 它 能 表达 所 有 的 可 教 
HEHE (every teachable concept)。 换 言 之 , 它 能 够 表达 实例 集 X 的 所 有 可 能 的 子 集 。 一 般 我 
们 把 集合 X 的 所 有 于 和 集 的 集合 称 为 X KK (power set). 

例如 在 EnjoySport 学 习 任 务 中 ,使 用 6 种 属性 描述 的 实例 空间 X 的 大 小 为 96。 在 这 一 
实例 集合 上 可 以 定义 多 少 概念 ? 换言之,X 的 寡 集 大 小 是 什么 ? 一 般 说 来 在 集合 上 定义 的 
相 子 集 数目 ( 即 X 知 集 的 大 小 ) 为 2'1*1 ,其 中 1X1 是 XX 的 元 素数 目 。 因 此 在 这 一 实例 空间 上 可 
定义 2% ,或 大 约 是 10* 个 不 同 的 目标 概念 ,这 也 是 学 习 器 所 需要 学 习 的 目标 概念 数目 。 回 忆 
2.3 节 中 合 取 假设 空间 只 能 表示 973 个 假设 一 一 实在 是 一 个 偏 置 很 大 的 假设 空间 ! 

现在 将 EnjoySport 学 习 任务 重新 定义 为 一 种 无 偏 的 形式 。 方 法 是 定义 一 个 新 的 假设 空 
E 有 ', 它 能 表示 实例 的 每 一 个 子 集 ,也 就 是 把 H' 对 应 到 XX RER. EL H' 的 一 种 办 法 是 , 允 
许 使 用 前 面 的 假设 的 任意 析 取 、 合 取 和 否定 式 。 例 如 目标 概念 “ Sky = Sunny 或 Sky = 
Cloudy” 可 被 描述 为 : 

(Sunny, ?, 2, 7,7, 7) V (Cloudy, ?, ?, ?, ?, ?) 

给 定 这 样 的 假设 空间 ,我 们 就 可 以 安全 地 使 用 候选 消除 算法 ,而 不 必 担 心 无 法 表达 目标 概 
念 。 然 而 ,虽然 这 个 假设 空间 排除 了 表达 能 力 的 问题 , 它 又 产生 了 一 个 新 的 同样 困难 的 问题 : 
概念 学 习 算法 将 完全 无 法 从 训练 样 例 中 泛 化 ! 其 原因 如 下 ,假定 我 们 给 学 习 器 提供 了 3 个 正 
例 (xj,x2, x3) 以 及 两 个 反例 (x4,xs)。 这 时 ,变型 空间 的 5S 边界 包含 的 假设 正好 是 三 个 正 例 
的 析 取 : 

S: | (xi V x2V x3) | 

因为 这 是 能 覆盖 3 个 正 例 的 最 特殊 假设 。 相 似 地 , G 边界 将 由 那些 刚好 能 排除 掉 反 例 的 

那些 假设 组 成 。 
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G: | 7(x4V x5)} 

问题 在 于 ,在 这 一 非常 具有 表达 力 的 假设 表示 方法 中 , S 边界 总 是 所 有 正 例 的 析 取 式 , G 
边界 总 是 所 有 反例 的 析 取 的 否定 式 。 这 样 能 够 由 $ 和 C 无 歧义 地 分 类 的 ,只 有 已 见 到 的 训练 
样 例 本 身 。 要 想 获得 单个 目标 概念 ,就 必须 提供 忒 中 所 有 的 实例 作为 训练 样 例 。 

看 起 来 避免 这 一 问题 的 方法 可 以 使 用 此 部 分 学 习 的 变型 空间 ,并 像 在 2.6.3 节 中 讨论 的 
那样 由 变型 空间 的 所 有 成 员 投 票 。 遗 憾 的 是 ,能 够 产生 一 致 投票 的 只 有 那些 已 见 过 的 训练 样 
例 。 对 其 他 的 实例 ,投票 没有 任何 效果 :每 一 个 未 见 过 的 实例 都 会 被 变型 空间 中 刚好 半数 的 假 
设 划 分 为 正 例 ,而 被 男 一 半 划 分 为 反例 (为 什么 ?)。 原 因 如 下 ,车 WX ER, x 是 某 个 
未 出 现 过 的 实例 , 则 对 于 变型 空间 中 一 覆盖 x 的 假设 户 ,必然 存在 另 一 假设 h' , 它 与 h 几乎 相 
等 ,只 不 过 对 x 的 分 类 不 同 。 而 且 ,如果 h 在 变型 空间 中 ,那么 h' 也 在 ,因为 它 对 于 已 往 训练 
样 例 的 划分 与 h 完全 一 样 。 


2.7.3 无 偏 学 习 的 无 用 性 


以 上 的 讨论 说 明了 归纳 推理 的 一 个 基本 属性 :学 习 器 如 果 不 对 目标 概念 的 形式 做 预先 的 
假定 , 它 从 根本 上 无 法 对 未 见 实例 进行 分 类 。 实 际 上 在 我 们 原来 的 EnjoySport 任务 中 ,候选 
消除 算法 能 够 从 训练 样 例 中 泛 化 ,其 惟一 的 原因 就 是 它 是 有 偏 的 , 它 隐 含 假 定 了 目标 概念 可 以 
由 属性 值 的 合 取 来 表示 。 如 果 这 一 假定 正确 (并 且 训 练 数据 无 错 ), 对 于 新 实例 的 分 类 也 会 是 
正确 的 。 但 如 果 这 个 假定 不 正确 ,候选 消除 算法 肯定 会 错误 地 分 类 X 中 的 某 些 实例 。 

由 于 归纳 学 习 需 要 某 种 形式 的 预先 假定 ,或 称 为 归纳 偏 置 (inductive bias)? ,我 们 可 以 用 
归纳 偏 置 来 描述 不 同学 习 方 法 的 特征 。 现 在 来 精确 地 定义 归纳 偏 置 。 这 里 要 获取 的 关键 思想 
在 于 ,学 习 器 在 从 训练 样 例 中 泛 化 并 推断 新 实例 的 分 类 过 程 中 所 采用 的 策略 。 因 此 ,考虑 一 般 
情况 下 任意 的 学 习 算 法 工 以 及 为 任意 目标 概念 提供 的 任意 训练 数据 De = |x, c(x)) to Ul 
练 过 程 结 束 后 , 需要 对 新 的 实例 x 进行 分 类 。 令 L(x;，D,) 表 示 在 对 训练 数据 D。 学 习 后 
L 赋予 x; 的 分 类 ( 正 例 或 反例 ) ,我 们 可 以 如 下 描述 L 所 进行 的 这 一 归纳 推理 过 程 : 

(D.A x;)> L(xi, De) 

这 里 的 记号 y> z 表示 z My 归纳 推理 得 到 ,例如 ,如 果 令 L 为 候选 消除 算法 , D, 为 表 2- 
1 中 的 训练 数据 , x; 为 表 2-6 中 第 一 个 实例 , 则 归纳 推理 可 得 到 结论 L(x;, De) = ( Enjoys- 
port = yes)。 

由 于 工 是 一 归纳 学 习 算 法 , 则 一 般 情 况 下 L(x;，D,) 这 一 推论 出 的 结果 正确 性 无 法 证 
明 ; 也 就 是 说 ,分 类 L(x;，D,) 并 非 从 训练 数据 D, 和 新 实例 x; 中 演绎 派生 。 然 而 问题 是 , 需 
要 在 D.A x; 上 附加 怎样 的 前 提 , 以 使 L(x;, D.) 能 演绎 派生 。 我 们 定义 L 的 归纳 偏 置 为 这 些 
附加 前 提 的 集合 。 更 精确 地 说 ,我 们 定义 L 的 归纳 偏 置 为 前 提 集 合 B, 使 所 有 的 新 实例 x; 满 
E: 

(BAD, A x;) H L(xi, D.) 


这 里 的 记号 y bz 表示 z My 演绎 派生 (follow deductively ,或 z 可 以 由 7 证 明 得 出 )。 这 





O 这 里 的 术语 归纳 偏 置 (inductive bias) 不 要 和 统计 学 中 普遍 使 用 的 估计 偏差 (estimation bis) B®. BERES 
5 章 讨论 。 . 
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E PRAT RE FO AB ed BT eB E B 充分 地 使 归纳 推理 由 演绎 推理 
来 论证 。 以 下 是 该 定义 的 总 结 : 

定义 :考虑 对 于 实例 集合 的 概念 学 习 算 法 L。 令 c 为 X 上 定义 的 任 一 概念 ,并 令 D, = 
i<x,，c(x)> lH e 的 任意 训练 样 例 集 合 。 令 L(x;，D,) 表 示 经 过 数据 D. 的 训练 后 工 赋予 
实例 x; 的 分 类 。 的 归纳 偏 置 是 最 小 断言 集合 B, 它 使 任意 目标 概念 c。 和 相应 的 训练 样 例 D。 


满足 : 
(VxiEX)[ (BADAz) | L(x;, D,)] (2.1) 


那么 ,候选 消除 算法 的 归纳 偏 置 是 什么 呢 ? 首先 确定 这 一 算法 的 L(x;，D,): 给 定数 据 集 
D, ,候选 消除 算法 首先 计算 变型 空间 YSr, 产 ,然后 在 变型 空间 所 包含 的 假设 中 投票 ,进行 新 实 
例 x; 的 分 类 。 这 里 假定 产生 x 的 分 类 的 条 件 是 投票 一 致 为 正 或 为 负 ,否则 不 进行 分 类 。 现 
在 来 回答 什么 是 候选 消除 算法 L(x;，D.,) 的 归纳 偏 置 的 问题 ;很 简单 ,就 是 cE H 这 个 前 提 。 
有 了 这 一 前 提 , 候 选 消除 算法 所 执行 的 每 一 归纳 推理 都 可 以 被 演绎 论证 。 

现在 看 一 看 为 什么 L(x;，D,) 这 一 分 类 可 由 B= {cE H) 数据 D, 和 实例 x; 演绎 派生 。 首 
先 ,注意 如 果 假 定 cE 及, 那么 可 演绎 派生 出 cE VSy pn.。 这 一 派生 的 条 件 除 cE 万 ,还 包括 变型 
空间 VSp,m 的 定义 ( 即 HPS D, 一 致 的 所 有 假设 集合 ) 以 及 对 D, = 《x，c(x%))1 的 定义 ( 即 与 
目标 概念 一 致 的 训练 数据 )。 其 次 ,由 于 L(x;，D.) 是 一 分 类 , 它 定义 为 变型 空间 中 所 有 假设 的 
一 致 投票 。 因 此 ,如 果 工 输出 分 类 L(x;，D.), 那 么 VS,m 中 每 一 假设 必 将 产生 同样 的 分 类 , 包 
括 假 设 cE VSy mx。 因此 c(xi) = L(x;，D.,) 候 选 消除 算法 的 归纳 偏 置 概括 说 明 如 下 : 

候选 消除 算法 的 归纳 人 篇 置 :目标 概念 c 包含 在 给 定 的 假设 空间 中。 

图 2-8 为 一 示意 图 解 。 上 面 的 图 显示 候选 消除 算法 有 两 个 输入 :训练 样 例 和 待 分 类 的 新 
实例 。 下 面 的 图 为 一 演绎 定理 证 明 器 , 它 的 输入 包括 同样 的 两 组 数据 ,再 加 上 断言 “HH 包含 目 
标 概 念 ”"。 这 两 个 系统 对 所 有 可 能 的 训练 样 例 输入 和 XX 中 可 能 的 新 实例 输入 产生 相同 的 输 
出 。 当 然 ,在 定理 证 明 器 中 显 式 输入 的 归纳 偏 置 只 是 隐 含 在 候选 消除 算法 的 代码 中 。 在 某 种 
意义 上 ,归纳 偏 置 只 在 我 们 的 印象 中 存在 ,但 它 确实 是 能 被 完整 定义 的 断言 集合 。 

将 归纳 推理 系统 看 作 是 包含 了 归纳 偏 置 ,好 处 在 于 它 提 供 了 一 种 非 程 序 化 的 描述 手段 ,以 
描述 学 习 器 从 观察 到 的 数据 中 进行 泛 化 的 策略 。 其 次 它 还 可 以 对 归纳 偏 置 强度 不 同 的 学 习 咒 
进行 比较 。 例 如 ,考虑 以 下 3 个 学 习 算法 , 按 其 有 偏 程度 从 弱 到 强 进行 排序 : 

1) 机 械 式 学 习 器 (ROTE-LEARNER): 简 单 地 将 每 个 观察 到 的 训练 样 例 存储 下 来 ,后 续 的 

实例 的 分 类 通过 在 内 存 中 匹配 进行 。 如 果实 例 在 内 存 中 找到 了 ,存储 的 分 类 结果 被 输 
出 。 否 则 系统 拒绝 进行 分 类 。 

2) 候选 消除 算法 :新 的 实例 只 在 变型 空间 所 有 成 员 都 进行 同样 分 类 时 才 输 出 分 类 结果 ， 

否则 系统 拒绝 分 类 。 

3) FiNp-$: 如 前 所 述 ,这 一 算法 寻找 与 训练 样 例 一 致 的 最 特殊 的 假设 , 它 用 这 一 假设 来 分 

类 后 续 实 例 。 

机 械 式 学 习 器 没有 归纳 偏 置 。 对 于 新 实例 所 做 的 分 类 能 从 已 观察 到 的 训练 样 例 中 演绎 派 
生 , 不 需要 附加 前 提 。 候 选 消除 算法 有 较 强 的 归纳 偏 置 : 即 目 标 概念 须 在 假设 空间 中 才能 表 
示 。 由 于 它 是 有 偏 的 ,所 以 能 够 对 机 械 式 学 习 器 不 能 分 类 的 实例 进行 分 类 。 当 然 分 类 的 正确 
性 也 完全 依赖 于 归纳 偏 置 的 正确 性 。FiNp-S 算法 有 更 强 的 归纳 偏 置 ,除了 假定 目标 概念 须 在 
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推出 ,否则 它 为 反例 .9 


归纳 系统 








USF 候选 消除 算法 


新 实例 使 用 很 设 空间 H 





等 价 的 演绎 系统 





训练 样 例 


新 实例 


被 明确 化 的 归纳 偏 置 


使 用 假设 空间 A 的 候选 消除 算法 的 输入 输出 行为 ,等 价 于 利用 了 断言 “万 包含 目标 概念 ”的 演绎 定理 证 明 器 。 
该 断言 因此 被 称 为 候选 消除 算法 的 归纳 偏 置 。 用 归纳 偏 置 来 刻画 归纳 系统 ,可 以 便于 使 用 等 价 的 演绎 系统 来 
模拟 它们 。 这 提供 了 一 种 对 归纳 系统 进行 比较 的 方法 , 即 通 过 它们 从 训练 数据 中 泛 化 的 策略 


图 2-8 用 等 价 的 演绎 系统 来 模拟 归纳 系统 


在 研究 其 他 的 归纳 推理 方法 时 ,有 必要 牢记 这 种 归纳 偏 置 的 存在 及 其 强度 。 一 种 算法 如 
果 有 偏 性 越 强 , 那 它 的 归纳 能 力 越 强 , 可 以 分 类 更 多 的 未 见 实 例 。 某 些 归纳 偏 置 是 对 类 别 的 假 
定 , 以 确定 目标 概念 的 范围 。 如 “假设 空间 H 包含 目标 概念 "。 其 他 的 归纳 偏 置 只 是 对 假设 进 
行 排序 ,以 描述 偏好 程度 , 比如 “偏向 于 特殊 假设 ,而 不 是 一 般 假 设 。 某 些 偏 置 隐 含 在 学 习 器 中 
不 可 更 改 ,如 这 里 所 讨论 的 例子 。 在 第 11 章 和 第 12 章 可 以 看 到 明确 表示 归纳 偏 置 的 系统 , 它 
们 将 偏 置 表 示 为 断言 的 集合 并 可 由 学 习 器 操纵 。 


2.8 小结 和 补充 读物 


本 章 的 要 点 包括 : 

© 概念 学 习 可 看 作 是 搜索 预定 义 潜在 假设 空间 的 过 程 。 

© 假设 的 一 般 到 特殊 偏 序 结构 可 以 定义 在 任何 概念 学 习 问题 中 , 它 提供 了 一 种 有 用 的 结 
构 以 便于 假设 空间 的 搜索 。 

© FIND-S 算法 使 用 一 般 到 特殊 序 ,在 偏 序 结构 的 一 个 分 支 上 执行 一 般 到 特殊 搜索 ,以 寻找 
与 样 例 一 致 的 最 特殊 假设 。 

© 候选 消除 算法 利用 一 般 到 特殊 序 ,通过 渐进 地 计算 极 大 特殊 假设 集合 S 和 极 大 一 般 假 
设 集合 6 计算 变型 空间 ( 即 所 有 与 训练 数据 一 致 的 假设 集 ) 。 


加 ”注意 最 后 面 这 个 归纳 偏 置 假定 , 它 包含 了 某 种 默认 推理 ,或 非 单调 推理 。 
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o 由 于 SHC 从 整个 假设 集合 中 划分 出 了 与 训练 数据 一 致 的 那 部 分 集合 ,它们 提供 了 一 - 
种 描述 定位 目标 概念 中 的 不 确定 性 的 方法 。 含 有 多 个 假设 的 变型 空间 可 以 用 来 判断 学 
习 器 是 否 已 收敛 到 了 目标 概念 ;判断 训练 数据 是 否 不 一 致 ;产生 查询 以 进一步 精 化 变型 
空间 以 及 确定 未 见 过 的 实例 是 否 能 用 不 完全 学 习 到 的 概念 来 无 歧义 地 分 类 。 
© 变型 空间 和 候选 消除 算法 为 研究 概念 学 习 提 供 了 一 种 有 用 的 框架 ,然而 这 一 算法 缺少 
健壮 性 ,特别 是 在 遇 到 有 噪声 的 数据 以 及 目标 概念 无 法 在 假设 空间 中 表示 的 情况 时 。 
第 10 章 描述 了 几 种 基于 一 般 到 特殊 序 关 系 的 概念 学 习 算 法 ,它们 能 够 处 理 有 了 噪声 数 
e 归纳 学 习 算 法 能 够 对 未 见 数 据 进 行 分 类 ,是 因为 它们 在 选择 一 致 的 假设 的 过 程 中 隐 含 
的 归纳 偏 置 。 候 选 消除 算法 中 的 偏 置 为 :目标 概念 可 以 在 假设 空间 中 找到 (cE H), 
出 的 假设 和 对 后 续 实 例 的 分 类 可 由 这 一 前 提 及 训练 样 例 演绎 推出 。 
© 如 果 假 设 空 间 被 扩展 ,使 对 应 实例 集 的 每 一 个 子 集 ( 实 例 的 宪 集 ) 都 有 一 个 假设 ,将 使 候 
选 消除 算法 中 的 归纳 偏 置 消失 。 然 而 ,这 也 将 消除 其 对 新 实例 分 类 的 能 力 。 无 偏 的 学 
习 器 无 法 对 未 见 样 例 进 行 归纳 。 
概念 学 习 以 及 使 用 一 般 到 特殊 序 的 相关 研究 由 来 已 久 。Bruner et al.(1957) 早 就 研究 了 
人 类 的 概念 学 习 , 而 Hunt & Hovland(1963) 将 其 自动 化 。Winston(1970) 的 著名 的 博士 论文 
中 将 概念 学 习 看 作 是 包含 泛 化 和 特殊 化 操作 的 搜索 过 程 。Plotkin(1970，1971) 较 早 地 提供 了 
形式 化 的 more _ general _than 关系 以 及 一 个 相关 的 概念 和 包容 (在 第 10 章 中 讨论 )。Simon 
和 Lea(1973) 将 学 习 的 过 程 看 作 是 在 假设 空间 中 搜索 的 过 程 。 其 他 一 些 较 早 的 概念 学 习 系 统 
包括 :Popplestone 1969、Michalski 1973、Buchanan 1974, Vere 1975、Hayes-Roth 1974, 大 量 的 基 
于 符号 表示 的 概念 学 习 算 法 已 被 开发 出 来 。 第 10 章 描述 了 几 种 近期 的 概念 学 习 算 法 ,包括 用 
一 阶 逻 辑 表示 的 概念 学 习 算法 ,对 有 了 品 声 数据 有 健壮 性 的 算法 ,以 及 当 目 标 概 念 无 法 在 学 习 器 
的 假设 空间 中 表示 时 能 较 好 地 降级 学 习 的 算法 。 
变型 空间 和 候选 消除 算法 由 Mitchell (1977, 1982) 提出 ,这 一 算法 已 应 用 于 质谱 分 析 
(mass spectroscopy) 中 的 规则 推理 ( Mitchell 1979) 以 及 应 用 于 学 习 搜索 控制 规则 ( Mitchell et 
al. 1983)。Haussler(1988) 证 明 ,即使 当 假 设 空间 只 包含 简单 的 特征 合 取 时 ,一般 边界 的 大 小 
随 训练 样 例 的 数目 成 指数 增长 。Smith & Rosenbloom(1990) 提 出 对 G 集合 的 表示 进行 简单 的 
更 改 ,以 改进 其 特定 情况 下 的 复杂 性 , Hirsh( 1992 ) 提 出 在 某 些 情况 下 不 存储 G 集合 时 学 习 过 
BARAK A SAR BR, Subramanian & Feigenbaum(1986) 讨 论 了 特定 情况 下 通过 分 解 
变型 空间 以 生成 有 效 查询 一 种 方法 。 候 选 消除 算法 的 一 个 最 大 的 实际 限制 是 它 要 求 训练 数据 
是 无 噪声 的 。Mitcehell(1979) 描 述 了 该 算法 的 一 种 扩展 ,以 处 理 可 预见 的 有 限 数量 的 误 分 类 样 
例 ,Hirsh(1990，1994) 提 出 一 种 良好 的 扩展 以 处 理 具有 实数 值 属 性 的 训练 样 例 中 的 有 限 噪 
声 。Hirsh(1990) 描 述 了 一 种 递增 变型 空间 合并 算法 , 它 将 候选 消除 算法 扩展 到 能 处 理由 不 同 
类 型 的 值 约 束 表 示 的 训练 信息 。 来 自 每 个 约束 的 信息 由 变型 空间 来 表示 ,然后 用 交 司 变型 空 
间 的 办 法 合并 这 些 约束 。Sebag(1994，1996) 展 示 了 一 种 被 称 为 析 取 变型 空间 的 方法 来 从 有 
噪声 数据 中 学 习 析 取 概 念 。 从 每 个 正 例 中 学 到 一 个 分 立 的 变型 空间 ,然后 用 这 不 同 变型 空间 
进行 投票 以 分 类 新 实例 。 她 在 几 个 问题 领域 进行 了 实验 ,得 出 她 的 方法 同 其 他 广泛 使 用 的 归 
纳 方法 有 同样 良好 的 性 能 ,如 决策 树 和 近邻 方法 。 
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习题 

2.1 解释 为 什么 EnjoySport 学 习 任 务 的 假设 空间 的 大 小 为 973。 如 果 增 加 一 属性 Water- 
Current ,可 取 值 Light, Moderate 和 Strong ,那么 可 能 的 实例 数 和 可 能 的 假设 数 将 会 增 
加 多 少 ? 推广 到 一 般 ,增加 一 新 属性 4 ,有 上 种 取 值 ,实例 数 和 假设 数 将 会 增加 多 少 ? 

2.2 在 候选 消除 算法 中 ,如 果 训 练 样 例 按 表 2-1 中 的 逆序 出 现 ,请 分 步 给 出 S$ 和 C 边界 集 
合 。 虽 然 不 论 样 例 出 现 顺 序 如 何 ,最 终 的 变 再 空 间 相 同 ( 为 什么 ?) ,在 中 间 步 又 中 得 到 的 
S 和 6 仍 依赖 于 该 顺序 。 是 否 有 办 法 对 训练 样 例 排序 ,以 使 EnjoySport 例子 中 的 所 有 
S 和 6 集合 的 中 间 结 果 的 大 小 之 和 为 最 小 ? 

2.3 继续 考虑 EnjoySport 学 习 任 务 和 2.2 节 中 描述 的 假设 空间 豆 。 如 果 定 义 一 个 新 的 假设 
空间 H', 它 包含 H 中 所 有 假设 的 成 对 析 取 。 如 H' 中 一 假设 为 : 

(?, Cold, High, ?,?, ?)V «Sunny, ?, High, ?, ?, Same) 

试 跟踪 运行 使 用 该 假设 空间 H' 的 候选 消除 算法 ,给 定 的 训练 样 例如 表 2-1 所 示 ( 需 要 分 
步 列 出 S 和 C 集合 )。 

2.4 假定 一 实例 空间 包含 x , y 平面 中 的 整数 点 ,假设 集合 H 为 矩形 集 。 更 精确 地 ,假设 的 


形式 为 c<x<b,c<ys<d, 其 中 ab,c,d 为 任意 整数 。 
(a) 考 虑 对 应 于 下 图 所 示 正 例 ( + ) 和 反例 ( - ) 集 合 的 变型 空间 , 它 的 $ 边界 是 什么 ? 5 
出 其 中 的 假设 并 在 图 中 画 出 。 





(b) 变 型 空间 的 G 边界 是 什么 , 写 出 其 中 的 假设 并 在 图 中 画 出 。 

(c) 假 定 学 习 器 可 提出 一 个 新 实例 (x，y), 并 要 求 施 教 者 进行 分 类 。 试 给 出 一 个 查询 ， 
无 论 施 教 者 怎样 分 类 都 能 保证 减 小 变型 空间 。 再 给 出 一 个 不 能 保证 的 查询 。 

(qd) 作 为 施 教 者 ,如 果 想 让 学 习 器 学 习 一 特定 的 目标 概念 (如 3<x<5,2<y<9), 为 使 
候选 消除 算法 完全 学 习 到 目标 概念 ,需要 提供 的 的 训练 样 例 数目 最 小 是 多 少 ? 

2.5 请 看 以 下 的 正 例 和 反例 序 例 ,它们 描述 的 概念 是 “两 个 住 在 同一 房间 中 的 人 ”。 每 个 训练 
样 例 描述 了 一 个 有 序 对 ,每 个 人 由 其 性 别 、 头 发 颜色 (black、brown 或 blonde) .身高 (tall、 
medium 或 short) 以 及 国籍 (US、French、German、Irish、Indian、Chinese 或 Portuguese) o 
+ ((male brown tall US), (female black short US)) 

+ <l male brown short French), < female black short US)) 
- (( female brown tall German), < female black short Indian) ) 
+(( male brown tall Irish), ( female brown short Irish)) 
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2.6 
2.7 


2.8 


2.9 


考虑 在 这 些 实例 上 定义 的 假设 空间 为 :所 有 假设 以 一 对 4 元 组 表示 ,其 中 每 个 值 约束 与 
EnjoySport 中 的 假设 表示 相似 ,可 以 为 :特定 值 “?" 或 者 "GG”。 例 如 ,下 面 的 假设 : 
(( male ? tall ? ) (female ? ? French)) 

它 表示 了 所 有 这 样 的 有 序 对 :第 一 个 人 为 高 个 男性 (国籍 和 发 色 任意 ) ,第 二 个 人 为 法 国 

女性 (发 色 和 身高 任意 )。 

(a) 根据 上 述 提供 的 训练 样 例 和 假设 表示 ,手动 执行 候选 消除 算法 。 特 别 是 要 写 出 处 理 

了 每 一 个 训练 样 例 后 变型 空间 的 特殊 和 一 般 边 界 。 
(b) 计 算 给 定 的 假设 空间 中 有 多 少 假设 与 下 面 的 正 例 一 致 
+ ((male black short Portuguese) ( female blonde tall Indian) ) 

(c) 如 果 学 习 器 只 有 一 个 训练 样 例 ,如 (b) 中 所 示 ,现在 由 学 习 器 提出 查询 ,并 由 施 教 者 给 
出 其 分 类 。 求 出 一 个 特定 的 查询 序列 ,以 保证 学 习 器 收敛 到 单个 正确 的 假设 ,而 不 论 
该 假设 是 哪 一 个 (假定 目标 概念 可 以 使 用 给 定 的 假设 表示 语言 来 描述 ) 。 求 出 最 短 的 
查询 序列 。 这 一 序列 的 长 度 与 问题 (b) 的 答案 有 什么 关联 ? 

(d) 注 意 到 这 里 的 假设 表示 语言 不 能 够 表示 这 些 实例 上 的 所 有 概念 (如 我 们 可 定义 出 一 
系列 的 正 例 和 反例 ,它们 并 没有 相应 的 可 描述 假设 )。 如 果 要 扩展 这 一 语言 ,使 其 能 
够 表达 该 实例 语言 上 的 所 有 概念 ,那么 (c) 的 答案 应 该 如 何 更 改 。 

完成 变型 空间 表示 定理 的 证 明 ( 定 理 2.1)。 

考虑 一 个 概念 学 习 问 题 ,其 中 每 个 实例 为 一 实数 ,而 每 个 假设 为 实数 中 的 某 个 区 间 。 精 

确 地 定义 为 :假设 空间 H 中 的 每 个 假设 形式 为 a < x < ,其 中 ab 为 任意 实 常数 ,x R 

表 该 实例 。 例 如 4.5< x < 6.1 这 个 假设 将 4.5 和 6.1 之 间 的 实例 划分 为 正 例 , 其 他 为 

反例 。 简 要 解释 为 什么 不 存在 一 个 对 任意 正 例 集合 都 一 致 的 最 特殊 假设 。 试 修改 假设 

的 表示 方法 以 避免 这 一 缺点 。 

本 章 中 指出 如 果 给 定 一 个 无 偏 的 假设 空间 ( 即 实例 的 寡 集 ) ,学 习 器 将 发 现 每 一 个 未 观察 

的 实例 将 刚好 与 变型 空间 中 半数 的 成 员 匹 配 ,而 不 论 已 经 过 了 怎样 的 训练 样 例 。 证 明 这 

一 结论 。 确 切 地 讲 , 证 明 对 于 任意 实例 空间 X, 任 意 训练 样 例 集 D 及 任意 不 包含 在 D 

PRHKA «CX, MR HX WER ARAL YSw,p 中 有 恰好 半数 的 假设 将 x 划分 为 正 

例 ,另外 半数 划分 为 反例 。. 

有 一 学 习 问 题 ,其 中 每 个 实例 都 由 n 个 布尔 值 属性 cl a2, ...,0, 的 合 取 来 描述 。 因 

此 ,一 个 典型 的 实例 如 下 : 

(ai= T)A(as= F)A...A(a,= T) 
现 考虑 一 个 假设 空间 H 中 ,每 个 假设 是 这 些 属性 约束 的 析 取 ,例如 : 
(a1= T)V(as= F)V (a1= T) 
设计 一 算法 , 它 经 过 一 系列 的 样 例 训 练 后 输出 一 个 一 致 的 假设 (如 果 存 在 的 话 )。 算 法 的 
时 间 要 求 为 n 和 训练 样 例 数 目的 多 项 式 函 数 。 


2.10 实现 FIND-S 算 法 。 首 先 ,验证 它 可 成 功 地 产生 2.4 节 中 EnjoySport 例子 中 各 步骤 结 


果 。 然 后 使 用 这 一 程序 ,研究 为 了 学 习 到 确切 的 目标 概念 所 需 的 随机 训练 样 例 数 目 。 
实现 一 训练 样 例 生成 器 来 生成 这 些 随机 的 实例 ,再 用 下 面 的 目标 概念 产生 分 类 结果 : 


(Sunny, Warm ,?,?,?,?) 
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试用 随机 产生 的 样 例 训练 你 的 FiNp-S 算法 并 测量 需要 多 少 样 例 才能 使 程序 的 假设 与 
目标 概念 相等 。 能 否 预测 所 需 的 平均 样 例 数 目 ? 运行 该 实验 20 次 并 报告 所 需 样 例 的 
平均 数 。 这 一 数目 会 怎样 随 着 目标 概念 中 的 “? "数目 而 变动 ? 以 及 它 会 怎样 随 着 实例 
或 假设 中 属性 的 数目 而 变动 ? 
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第 3 章 决策 树 学 习 


决策 树 学 习 是 应 用 最 广 的 归纳 推理 算法 之 一 。 它 是 一 种 逼近 离散 值 函数 的 方法 ,对 噪声 
数据 有 很 好 的 健壮 性 且 能 够 学 习 析 取 表 达 式 。 本 章 描述 了 一 系列 决策 树 学 习 算 法 ,包括 如 
ID3、ASSISTANT 和 C4.5 这 样 广 为 应 用 的 算法 。 这 些 决策 树 学 习 方 法 搜索 一 个 完整 表示 的 
假设 空间 ,从 而 避免 了 受 限 假设 空间 的 不 足 。 决 策 树 学 习 的 归纳 偏 置 是 优先 选择 较 小 的 树 。 


3.1 简介 


决策 树 学 习 是 一 种 逼近 离散 值 目标 函数 的 方法 ,在 这 种 方法 中 学 习 到 的 函数 被 表示 为 一 
棵 决策 树 。 学 习 得 到 的 决策 树 也 能 再 被 表示 为 多 个 if-then 的 规则 , 以 提高 可 读 性 。 这 种 学 习 
算法 是 最 流行 的 归纳 推理 算法 之 一 ,已 经 被 成 功 地 应 用 到 从 学 习 医 疗 诊断 到 学 习 评 佑 贷款 申 
请 的 信用 风险 的 广阔 领域 。 


3.2 决策 树 表示 法 


决策 树 通过 把 实例 从 根 结 点 排列 (sort) 到 某 个 叶子 结 点 来 分 类 实例 ,叶子 结 点 即 为 实例 
所 属 的 分 类 。 树 上 的 每 一 个 结 点 说 明了 对 实例 的 某 个 属性 (attribute) 的 测试 ,并且 该 结 点 的 每 
一 个 后 继 分 支 对 应 于 该 属性 的 一 个 可 能 值 。 分 类 实例 的 方法 是 从 这 棵 树 的 根 结 点 开始 ,测试 
这 个 结 点 指定 的 属性 ,然后 按照 给 定 实例 的 该 属性 值 对 应 的 树枝 向 下 移动 。 然 后 这 个 过 程 在 
以 新 结 点 为 根 的 子 树 上 重复 。 

图 3-1 画 出 了 一 棵 典型 的 学 习 到 的 决策 树 。 这 棵 决策 树 根据 天 气 情况 分 类 “星期 六 上 午 
是 否 适合 打 网 球 ”。 例 如 ,下 面 的 实例 将 被 沿 着 这 棵 决策 树 的 最 左 分 支 向 下 排列 ,因而 被 判定 
为 反例 (也 就 是 这 棵 树 预测 这 个 实例 Play Tennis = No). 


High ~ Strong Weak 
No Yes No Yes 


分 类 一 个 样 例 的 方法 是 ,将 其 沿 根 结 点 排列 到 合适 的 叶子 结 点 ,然后 返回 与 这 个 叶子 结 点 关联 的 分 类 (本 例 中 
为 Yes 或 No)。 这 棵 决策 树 根据 天 气 分 类 “星期 六 上 午 是 否 适合 打 网 球 ” 


图 3-1 概念 PlayTennis 的 决策 树 
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( Outlook = Sunny, Temperature = Hot, Humidity = High, Wind = Strong) 

这 棵 树 以 及 表 3-2 中 用 来 演示 ID3 学 习 算法 的 例子 摘自 (Quinlan 1986). 

通常 决策 树 代表 实例 属性 值 约束 的 合 取 (conjunction) 的 析 取 式 (disjunction)。 从 树 根 到 树 
叶 的 每 一 条 路 径 对 应 一 组 属性 测试 的 合 取 , 树 本 身 对 应 这 些 合 取 的 析 取 。 例 如 ,图 3-1 表示 的 
决策 树 对 应 于 以 下 表达 式 : 

(Outlook = Sunny A Humidity = Normal) 
V ( Outlook = Overcast ) 
V (Outlook = Rain A Wind = Weak) 


3.3 决策 树 学 习 的 适用 问题 


尽管 已 经 开发 的 种 种 决策 树 学 习 算 法 有 这 样 或 那样 不 太一 致 的 能 力 和 要 求 ,通常 决策 树 
学 习 最 适合 具有 以 下 特征 的 问题 : 

@ 实例 是 由 “属性 - 值 " 对 (pair) 表 示 的 : 实例 是 用 一 系列 固定 的 属性 (例如 , Temperature) 

和 它们 的 值 (例如 , Hoi) 来 描述 的 。 在 最 简单 的 决策 树 学 习 中 ,每 一 个 属性 取 少 数 的 离 
散 的 值 (例如 , Hot, Mild Cold)。 然 而 ,扩展 的 算法 (在 3.7.2 节 中 讨论 ) 也 允许 处 理 值 
域 为 实数 的 属性 (例如 ,数字 表示 的 温度 )。 

© 目标 函数 具有 离散 的 输出 值 : 图 3-1 的 决策 树 给 每 个 实例 赋予 一 个 布尔 型 的 分 类 ( 例 

如 ,yes 或 no)。 决 策 树 方法 很 容易 扩展 到 学 习 有 两 个 以 上 输出 值 的 函数 。 一 种 更 强 有 
力 的 扩展 算法 允许 学 习 具 有 实数 值 输出 的 函数 ,尽管 决策 树 在 这 种 情况 下 的 应 用 不 太 
常见 。 
© 可 能 需要 祈 取 的 描述 (disjunctive description): 如 上 面 指出 的 ， 决策 树 很 自然 地 代表 了 
析 取 表达 式 。 

© 训练 数据 可 以 包含 错误 : 决策 树 学 习 对 错误 有 很 好 的 健壮 性 ,无 论 是 训练 样 例 所 属 的 
分 类 错误 还 是 描述 这 些 样 例 的 属性 值 错误 。 

o 训练 数据 可 以 包含 缺少 属性 值 的 实例 : 决策 树 学 习 甚 至 可 以 在 有 未 知 属性 值 的 训练 样 
例 中 使 用 (例如 , 仅 有 一 部 分 训练 样 例 知道 当天 的 湿度 )。 这 个 问题 将 在 第 3.7.4 节 中 
讨论 。 

已 经 发 现 很 多 实际 的 问题 符合 这 些 特 征 , 所 以 决策 树 学 习 已 经 被 应 用 到 很 多 问题 中 。 例 
如 根据 疾病 分 类 患者 ;根据 起 因 分 类 设备 故障 ;根据 拖欠 支付 的 可 能 性 分 类 贷款 申请 。 对 于 这 
些 问题 ,核心 任务 都 是 要 把 样 例 分 类 到 各 可 能 的 离散 值 对 应 的 类 别 (category) 中 ,因此 经 常 被 
称 为 分 类 问题 (classification problem) 。 

这 一 章 的 其 余部 分 是 这 样 安排 的 。 第 3.4 节 给 出 学 习 决策 树 的 基本 ID3 算法 并 演示 它 的 
具体 操作 。 第 3.5 节 分 析 使 用 这 种 学 习 算法 进行 的 假设 空间 搜索 ,并 与 第 2 章 的 算法 进行 了 
比较 。 第 3.6 节 刻 画 了 决策 树 学 习 算 法 的 归纳 偏 置 ,并 更 一 般 化 的 探索 了 一 种 被 称 为 奥 坎 姆 
剃刀 的 归纳 偏 置 ,该 偏 置 优先 选择 最 简单 的 假设 。 第 3.7 节 讨论 了 训练 数据 的 过 度 拟 合 
(overfitting) 以 及 解决 这 种 问题 的 策略 ， 比如 规则 后 修剪 (post-pruning)。 这 一 节 还 讨论 了 一 些 
更 深入 的 话题 ,比如 将 算法 扩展 以 适应 实数 值 属性 、. 带 有 未 观测 到 属性 的 训练 数据 ,以 及 有 不 
同 代价 的 属性 。 











3.4 基本 的 决策 树 学 习 算 法 


大 多 数 已 开发 的 决策 树 学 习 算法 是 一 种 核心 算法 的 变 体 。 该 算法 采用 自 顶 向 下 的 贪 焚 搜 
索 遍 历 可 能 的 决策 树 空间 。 这 种 方法 是 ID3 算法 (Quinlan 1986) 和 后 继 的 C4.5 算法 (Quinlan 
1993) 的 基础 ,也 是 讨论 的 重点 。 这 一 节 将 给 出 决策 树 学 习 的 基本 算法 ,大 致 相当 于 ID3 算 
法 。 在 第 3.7 节 我 们 考虑 该 基本 算法 的 一 些 扩 展 , 包 括 被 合并 到 C4.5 和 其 他 一 些 较 新 的 决 
策 树 学 习 算 法 中 的 扩展 。 

基本 的 ID3 算法 通过 自 顶 向 下 构造 决策 树 来 进行 学 习 。 构 造 过 程 是 从 “ 哪 一 个 属性 将 在 
树 的 根 结 点 被 测试 ?这 个 问题 开始 的 。 为 了 回答 这 个 问题 ,使 用 统计 测试 来 确定 每 一 个 实例 
属性 单独 分 类 训练 样 例 的 能 力 。 分 类 能 力 最 好 的 属性 被 选 作 树 的 根 结 点 的 测试 。 然 后 为 根 结 
点 属性 的 每 个 可 能 值 产生 一 个 分 支 , 并 把 训练 样 例 排 列 到 适当 的 分 支 (也 就 是 , 样 例 的 该 属性 
值 对 应 的 分 支 ) 之 下 。 然 后 重复 整个 过 程 ,用 每 个 分 支 结 点 关联 的 训练 样 例 来 选取 在 该 点 被 测 
试 的 最 佳 属性 。 这 形成 了 对 合格 决策 树 的 贪 禁 搜索 (greedy search) ,也 就 是 算法 从 不 回溯 重新 
考虑 以 前 的 选择 。 表 3-1 描述 了 该 算法 的 一 个 简化 版 本 一 一 专门 用 来 学 习 布 尔 值 函 数 ( 即 概 
念 学 习 )。 





R31 专用 于 学 习 布尔 函数 的 iD3 算法 概要 


1D3( Examples, Target _ attribute, Attributes ) 
Examples 即 训练 样 例 集 。 Target _attribuie 是 这 棵 树 要 预测 的 目标 属性 。 4tributes 是 除 目标 属性 外 供 学 
习 到 的 决策 树 测 试 的 属性 列表 。 返 回 一 棵 能 正确 分 类 给 定 Examples 的 决策 树 
@ 创建 树 的 Root 结 点 
@ 如 果 Examples RAE ,那么 返回 label = + 的 单 结 点 树 Root 
@ 如 果 Examples BAK ,那么 返回 label = - 的 单 结 点 树 Root 
@ 如 果 Attributes HS ,那么 返回 单 结 点 树 Root label = Examples 中 最 普遍 的 Target _ attribute 值 
o 否则 开始 
@ A< Attributes 中 分 类 Examples 能 力 最 好 的 属性 * 
@ Root 的 决策 属性 一 4 
OUT 4 的 每 个 可 能 值 »; 
@ Y Root 下 加 一 个 新 的 分 支 对 应 测试 4 = vi 
es Examples, 为 Examples 中 满足 4 属性 值 为 w 的 子 集 


own Examples, 为 空 


@ 在 这 个 新 分 支 下 加 一 个 叶子 结 点 , 结 点 的 label= Examples 中 最 普遍 的 Target _ attribute 值 
© 否则 在 这 个 新 分 支 下 加 一 个 子 树 1D3( Examples, , Target _attribute, Attributes - {41) 

@ 结束 

全 返回 Root 


x 根据 公式 (3.4) 的 定义 ,具有 最 高 信息 增益 (information gain) 的 属性 是 最 好 的 属性 。 
2: ID3 是 一 种 自 顶 向 下 增长 树 的 俩 装 算 法 ,在 每 个 结 点 选取 能 最 好 地 分 类 样 例 的 属性 。 继 续 这 个 过 程 直 到 这 棵 树 能 


完美 分 类 训练 样 例 ,或 所 有 的 属性 都 已 被 使 用 过 。 
3.4.1 了 哪个 属性 是 最 佳 的 分 类 属性 
ID3 算法 的 核心 问题 是 选取 在 树 的 每 个 结 点 要 测试 的 属性 。 我 们 希望 选择 的 是 最 有 助 于 
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分 类 实例 的 属性 。 那 么 衡量 属性 价值 的 一 个 好 的 定量 标准 是 什么 呢 ? 这 里 将 定义 一 个 统计 属 
性 , 称 为 “信息 增益 "(information gain) ,用 来 衡量 给 定 的 属性 区 分 训练 样 例 的 能 力 。ID3 算法 
在 增长 树 的 每 一 步 使 用 这 个 信息 增益 标准 从 候选 属性 中 选择 属性 。 

1. EA Bl i — 

为 了 精确 地 定义 信息 增益 ,我 们 先 定义 信息 论 中 广泛 使 用 的 一 个 度量 标准 , 称 为 精 (en- 
tropy) , 它 刻画 了 任意 样 例 集 的 纯度 (purity)。 给 定 包含 关于 某 个 目标 概念 的 正 反 样 例 的 样 例 
集 $ ,那么 S 相对 这 个 布尔 型 分 类 的 糖 为 : 

Entropy(S) =- pe loppa- Po logzpe (3.1) 

其 中 , pg 是 在 S 中 正 例 的 比例 ,pe 是 在 SPRAKEN. EARN AITS PR 
定义 0log0 为 0。 

举例 说 明 ,假设 $ 是 一 个 关于 某 布尔 概念 的 有 14 个 样 例 的 集合 , 它 包括 9 个 正 例 和 5 个 
反例 (我 们 采用 记号 [9 + ,5 - ] 来 概括 这 样 的 数据 样 例 )。 那 么 S 相对 于 这 个 布尔 分 类 的 灶 
为 : 

Entropy([9 +,5 -]) = - (9/14)loga(9/14) - (5/14) log, (5/14) 
= 0.940 (3.2) 

注意 ,如 果 S 的 所 有 成 员 属 于 同一 类 ,那么 $ 的 焙 为 0。 例 如 ,如 果 所 有 的 成 员 是 正 的 
(pe =1) ,那么 pe 就 是 0, 于 是 Entropy(S) = - 1log(1) - (0) .logz(0) = - 1-0 - 0 log,0 = 
0。 另 外 , 当 集合 中 正 反 样 例 的 数量 相等 时 AA 1, RRS PIE AC SAT ST 
0 和 1 之 间 。 图 3-2 BRT KRFRBRAR BRS poM 0 到 1 变化 的 曲线 。 


0.0 0.5 1.0 


图 中 画 出 了 随 着 正 例 所 占 比例 pe 从 0 到 1 ARRE AR 
图 3-2 RFRA RADA OR RA 


(BOP — PRE RE TERA $ 中 任意 成 员 ( 即 以 均匀 的 概率 随机 抽 
出 的 一 个 成 员 ) 的 分 类 所 需要 的 最 少 二 进 制 位 数 。 举 例 来 说 ,如 果 pe 是 1, 接 收 者 知道 抽出 的 
样 例 必 为 正 ,所 以 不 必 发 任何 消息 ,此 时 的 炳 为 0。 另 一 方面 ,如 果 pe 是 0.5, 必 须 用 一 个 二 进 
制 位 来 说 明 抽出 的 样 例 是 正 还 是 负 。 如 果 pe 是 0.8, 那 么 对 所 需 的 消息 编码 方法 是 赋 子 正 例 
集合 较 短 的 编码 ,可 能 性 较 小 的 反例 集合 较 长 的 编码 ,平均 每 条 消息 的 编码 少 于 1 个 二 进 制 


位 G 
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至 此 我 们 讨论 了 目标 分 类 是 布尔 型 的 情况 下 的 炉 。 更 一 般 的 ,如 果 目 标 属 性 具有 。 个 不 
同 的 值 ,那么 S 相对 于 < 个 状态 (c-wise) 的 分 类 的 粹 定义 为 : 


Entropy(S) = 2 一 pilog pi (3. 3) 


其 中 ,pi 是 $ 中 属于 类 别 i 的 比例 。 请 注意 对 数 的 底数 仍然 为 2， 原因 是 炉 是 以 二 进 制 位 
的 个 数 来 度量 编码 长 度 的 。 同 时 注意 , 如果 目标 属性 具有 c 个 可 能 值 ,那么 粹 最 大 可 能 为 
log2co 

2, 用 信息 增益 度量 期 望 的 炉 降 低 

已 经 有 了 炳 作为 衡量 训练 样 例 集合 纯度 的 标准 ,现在 可 以 定义 属性 分 类 训练 数据 的 能 力 
的 度量 标准 。 这 个 标准 被 称 为 “信息 增益 " (information gain)。 简 单 地 说 ,一 个 属性 的 信息 增 
益 就 是 由 于 使 用 这 个 属性 分 割 样 例 而 导致 的 期 望 焙 降 低 。 更 精确 地 讲 ,一 个 属性 4 相对 样 例 
集合 S 的 信息 增益 Cain( S, 4 ) 被 定义 为 : 

Gain(S,A) = Entropy(S) - 5 | | 1821 pntropy( 3， ) (3.4) 


v€ Values( A) 


其 中 , Values( 4 ) 是 属性 4 所 有 可 能 值 的 集合 , S, 是 $ 中 属性 4 的 值 为 的 子 集 (也 就 
Æ, S, = 1s€ 514(s) = "|)。 请 注意 ,等 式 (3.4) 的 第 一 项 就 是 原 集合 S HH, AIOE A 
分 类 S SRA. LACT RH ARAL TR DAM AR S, 


Sel, 所 以 Gain( 5, 4 ) 是 由 于 知道 属性 4 的 值 而 导致 的 期 望 


RBA RANERI, Gain( 5S, 4 ) 是 由 于 给 定 属性 4 的 值 而 得 到 的 关于 目标 函数 值 的 信息 。 
当 对 5 的 一 个 任意 成 员 的 目标 值 编码 时 , Gain( S, 4) 的 值 是 在 知道 属性 4 的 值 后 可 以 节省 
的 二 进 制 位 数 。 
例如 ,假定 S 是 一 套 有 关 天 气 的 训练 样 例 , 描述 它 的 属性 为 可 具有 Weak 和 Strong 两 个 
值 的 ind。 像 前 面 一 样 ,假定 S 包含 14 个 样 例 一 一 [9+ ,5- ]。 在 这 14 个 样 例 中 ,假定 正 
例 中 的 6 个 和 反例 中 的 2 个 有 Wind = Weak, 其 他 的 有 Wind = Strong。 由 于 按照 属性 
Wind 分 类 14 个 样 例 得 到 的 信息 增益 可 以 计算 如 下 。 
Values( Wind) = Weak, Strong 
S=[9+,5-] 
S weak [6+ ,2-] 
Sstrong* 13 + 3 ] 





iS, 1 
Gain(S, Wind) = Entropy(S) 一 S| 
vE | Weak, Strong} 


= Entropy(S) - (8/14) Entropy( S wean) — (6/14) Entropy( Ssirong ) 
= 0.940 - (8/14)0.811 - (6/14)1.00 
= 0.048 
信息 增益 正 是 ID3 算法 增长 树 的 每 一 步 中 选取 最 佳 属性 的 度量 标准 。 图 3-3 概述 了 如 何 
使 用 信息 增益 来 评估 属性 的 分 类 能 力 。 在 这 个 图 中 ,计算 了 两 个 不 同属 性 :湿度 (humidity) 和 
风力 (wind) 的 信息 增益 ,以 便 决 定 对 于 分 类 表 3-2 的 训练 样 例 哪 一 个 属性 更 好 。 


~e Entropy( S, ) 
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B— SRE BRENDA? 


S: [94,5-] S: [9+,5-] 
E =0.940 E=0.940 
midiy [nd 

High Normal Weak Strong 
13+,4-] {6+,1-] (6+,2~] (3+,3-} 
E=0.985 E =0.592 E=0.811 E=1.00 

Gain (S, Humidity ) Gain (S, Wind) 
= 940 —(7/14).985— (7/14).592 = 940 (8/14).811—(6/14)1.0 
= 151 = .048 


相对 于 目标 分 类 ( 即 星 期 六 上 午 是 否 适合 打 网 球 ), Humidity 比 Wind 有 更 大 的 信息 增益 。 这 里 , ER, S 
代表 原始 样 例 集合 。 已 知 初始 集合 S$ 有 9 个 正 例 和 5 个 反例 , 即 [9+ ,5 - ]。 用 Humidity 分 类 这 些 样 例 产生 
了 子 集 [3+ ,4- ]( Humidity = High) 和 [6+ ,1 - ]( Humidity = Normal)。 这 种 分 类 的 信息 增益 为 0.151, 而 对 


于 属性 Wind 增益 仅 为 0.048 
图 3-3 计算 属性 的 信息 增益 


3.4.2 举例 


为 了 演示 ID3 算法 的 具体 操作 ,考虑 表 3-2 的 训练 数据 所 代表 的 学 习 任 务 。 这 里 ,目标 属 
性 PlayTennis 对 于 不 同 的 星期 六 上 午 具 有 yes 和 no 两 个 值 ,我 们 将 根据 其 他 属性 来 预测 这 个 
目标 属性 值 。 先 考虑 这 个 算法 的 第 一 步 , 创 建 决策 树 的 最 顶端 结 点 。 哪 一 个 属性 该 在 树 上 第 
一 个 被 测试 呢 ? ID3 算法 计算 每 一 个 候选 属性 (也 就 是 Outlook. Temperature, Humidity 和 
yind) 的 信息 增益 ,然后 选择 信息 增益 最 高 的 一 个 。 其 中 两 个 属性 的 信息 增益 的 计算 显示 在 
图 3-3 中 。 

所 有 四 个 属性 的 信息 增益 为 : 

Gain(S, Outlook) = 0.246 


Gain( S , Humidity) =0.151 
Gain( S, Wind) = 0.048 
Gain( S, Temperature ) = 0.029 
其 中 , $ 表示 来 自 表 3-2 的 训练 样 例 的 集合 。 
甫 3-2 目标 概念 PlayTennis 的 训练 样 例 








Day Outlook Temperature Humidity Wind PlayTennis 
D1 Sunny Hot High Weak No 
D2 Sunny Hot High Strong No 
D3 Overcast Hot High Weak Yes 
D4 Rain Mild High Weak Yes 
D5 Rain Cool Normal Weak Yes 
D6 Rain Cool Normal Strong No 


D7 Overcast Cool Normal Strong Yes 














( 续 ) 
Day Outlook Temperature Humidity Wind PlayTennis 
D8 Sunny Mild High Weak No - 
D9 Sunny Cool Normal Weak Yes 
D10 Rain Mild Normal Weak Yes 
Dit Sunny Mild Normal Strong Yes 
D12 Orvercast Mild High Strong Yes 
D13 Overcast Hot Normal Weak Yes 
D14 Rain Mild High Strong No 


根据 信息 增益 标准 ,属性 Outlook 在 训练 样 例 上 提供 了 对 目标 属性 PlayTennis 的 最 佳 预 
测 。 所 以 , Outlook 被 选 作 根 结 点 的 决策 属性 ,并 为 它 的 每 一 个 可 能 值 ( 也 就 是 Sunny, Over- 
cast 和 Rain ) 在 根 结 点 下 创建 分 支 。 得 到 的 部 分 决策 树 显示 在 图 3-4 中 ,同时 画 出 的 还 有 被 排 
列 到 每 个 新 的 后 继 结 点 的 训练 样 例 。 注 意 到 每 一 个 Outlook = Overcast 的 样 例 也 都 是 
PlayTennis 的 正 例 。 所 以 , 树 的 这 个 结 点 成 为 一 个 叶子 结 点 , 它 对 目标 属性 的 分 类 是 
PlayTennis = Yes。 相 反 ,对 应 Outlook = Sunny 和 Outlook = Rain 的 后 继 结 点 还 有 非 0 BOE, 
所 以 决策 树 会 在 这 些 结 点 下 进一步 展开 。 


{D1, D2, ..., D14} 
[9+,5-} 


a Overcast Rain 
{D1,D2,D8,D9,D1 1} {D3,D7,D12,D13} {D4,D5,D6,D10,D14} 
[2+,3-] [4+,0-] [3+,2-] 


aan 


圭一 个 属性 应 在 这 里 被 测试 ? 


Ssunny = (D1,D2,D8,D9.D11} 
Gain (Ssunny , Humidity) = .970 - (3/5)0.0 - (2/5)0.0 = .970 
Gain (Ssunny. Temperature) = .970 - (2/5) 0.0 - (2/5) 1.0 - (1/5)0.0 = .570 
Gain {Ssunny. Wind) = 970 - (2/5) 1.0 - (3/5).918 = .019 


训练 样 例 被 排列 到 对 应 的 分 支 结 点 。 分 支 Overcast 的 所 有 样 例 都 是 正 例 , 所 以 成 为 目标 分 类 为 Yes 的 叶 结 点 。 
另 两 个 结 点 将 被 进一步 展开 ,方法 是 按照 新 的 样 例子 集 选取 信息 增益 最 高 的 属性 


图 3-4 ID3 算法 第 一 步 后 形成 的 部 分 决策 树 


对 于 非 终 端的 后 继 结 点 ,再 重复 前 面 的 过 程 选 择 一 个 新 的 属性 来 分 割 训练 样 例 , 这 一 次 仅 合 
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用 与 这 个 结 点 关联 的 训练 样 例 。 已 经 被 树 的 较 高 结 点 测试 的 属性 被 排除 在 外 ,以 便 任 何 给 定 的 
属性 在 树 的 任意 路 径 上 最 多 仅 出 现 一 次 。 对 于 每 一 个 新 的 叶子 结 点 继续 这 个 过 程 ,直到 满足 以 
下 两 个 条 件 中 的 任 一 个 : (1) 所 有 的 属性 已 经 被 这 条 路 径 包 括 ; (2) 与 这 个 结 点 关联 的 所 有 训 
练 样 例 都 具有 相同 的 目标 属性 值 (也 就 是 它们 的 粹 为 0)。 图 3-4 列 出 了 下 一 步 增长 树 要 计算 的 
信息 增益 。 表 3-2 的 14 个 训练 样 例 通过 ID3 算法 得 到 的 最 终 决 策 树 画 在 图 3-1 中 。 


3.5 决策 树 学 习 中 的 假设 空间 搜索 

与 其 他 的 归纳 学 习 算 法 一 样 , ID3 算法 可 以 被 描述 为 从 一 个 假设 空间 中 搜索 一 个 拟 合 训 
练 样 例 的 假设 。 被 ID3 算法 搜索 的 假设 空间 就 是 可 能 的 决策 树 的 集合 。1D3 算法 以 一 种 从 简 
单 到 复杂 的 息 山 算法 遍历 这 个 假设 空间 ,从 空 的 树 开始 ,然后 逐步 考虑 更 加 复杂 的 假设 ,目的 


是 搜索 到 一 个 正确 分 类 训练 数据 的 决策 树 。 引 导 这 种 息 山 搜索 的 评估 函数 是 信息 增益 度量 。 
图 3-5 描述 了 这 种 搜索 。 


ID3 遍历 可 能 决策 树 的 空间 ,从 最 简单 的 树 到 逐渐 复杂 的 树 ,其 搜索 由 信息 增益 启发 式 规则 引导 
图 3-5 IDI 搜索 的 假设 空间 


通过 观察 ID3 算法 的 搜索 空间 和 搜索 策略 ,我 们 可 以 深入 认识 这 个 算法 的 优势 和 不 足 。 

© ID3 算法 中 的 假设 空间 包含 所 有 的 决策 树 , 它 是 关于 现 有 属性 的 有 限 离散 值 函数 的 一 
个 完整 空间 。 因 为 每 个 有 限 离散 值 函数 可 被 表示 为 某 个 决策 树 , 所 以 ID3 算法 避免 了 
搜索 不 完整 假设 空间 (例如 那些 仅 考 虑 合 取 假 设 的 方法 ) 的 一 个 主要 风险 :假设 空间 可 
能 不 包含 目标 函数 。 

o 当 饥 历 决策 树 空间 时 ,ID3 仅 维护 单一 的 当前 假设 。 这 与 第 2 章 讨 论 的 变型 空间 候选 
消除 方法 不 同 , 后 者 维护 了 与 当前 的 训练 样 例 一 致 的 所 有 假设 的 集合 。 因 为 仅 考虑 单 
一 的 假设 ,ID3 算法 失去 了 表示 所 有 一 致 假设 所 带 来 的 优势 。 例 如 , 它 不 能 判断 有 多 少 
个 其 他 的 决策 树 也 是 与 现 有 的 训练 数据 一 致 的 ,或 者 使 用 新 的 实例 查询 来 最 优 地 区 分 
这 些 竞争 假设 。 
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o 基本 的 IDI 算法 在 搜索 中 不 进行 回溯 。 每 当 在 树 的 某 一 层次 选择 了 一 个 属性 进行 测 
试 , 它 不 会 再 回潮 重新 考虑 这 个 选择 。 所 以 , 它 易 受 无 回潮 的 爬山 搜索 中 的 常见 风险 影 
响 : 收敛 到 局 部 最 优 的 答案 ,而 不 是 全 局 最 优 的 。 对 于 ID3 算法 ,一 个 局 部 最 优 的 答案 
对 应 着 它 在 一 条 搜索 路 径 上 探索 时 选择 的 决策 树 。 然 而 ,这 个 局 部 最 优 的 答案 可 能 不 
如 沿 着 另 一 条 分 支 搜索 到 的 更 令 人 满意 。 后 面 我 们 讨论 一 个 扩展 ,增加 一 种 形式 的 回 
溯 ( 后 修剪 决策 树 ) 。 

© ID3 算法 在 搜索 的 每 一 步 都 使 用 当前 的 所 有 训练 样 例 ,以 统计 为 基础 决定 怎样 精 化 当 
前 的 假设 。 这 与 那些 基于 单独 的 训练 样 例 递增 作出 决定 的 方法 (例如 ,FINp-S 或 候选 消 
除法 ) 不 同 。 使 用 所 有 样 例 的 统计 属性 (例如 ,信息 增益 ) 的 一 个 优点 是 大 大 降低 了 对 个 
别 训 练 样 例 错 误 的 敏感 性 。 因 此 ,通过 修改 ID3 算法 的 终止 准则 以 接受 不 完全 拟 合 训 
练 数据 的 假设 , 它 可 以 被 很 容易 地 扩展 到 处 理 含 有 噪声 的 训练 数据 。 


3.6 决策 树 学 习 的 归纳 偏 置 


ID3 算法 用 什么 策略 从 观测 到 的 训练 数据 泛 化 以 分 类 未 见 实 例 呢 ? 换 句 话说 , 它 的 归纳 偏 置 是 
HA? 回忆 第 2 章 中 ,归纳 偏 置 是 一 系列 前 提 , 这 些 前 提 与 训练 数据 一 起 演绎 论证 未 来 实例 的 分 类 。 

如 果 给 定 一 个 训练 样 例 的 集合 ,那么 通常 有 很 多 决策 树 与 这 些 样 例 一 致 。 所 以 ,要 描述 
ID3 算法 的 归纳 偏 置 ,应 找到 它 从 所 有 一 致 的 假设 中 选择 一 个 的 根据 。ID3 从 这 些 决策 树 中 
选择 哪 一 个 呢 ? 它 选择 在 使 用 简单 到 复杂 的 扑 山 算法 遍历 可 能 的 树 空间 时 遇 到 的 第 一 个 可 接 
受 的 树 。 概 略 地 讲 ,ID3 的 搜索 策略 为 : (a) 优 先 选择 较 短 的 树 而 不 是 较 长 的 ; (b) 选 择 那些 信 
息 增 益 高 的 属性 离 根 结 点 较 近 的 树 。 在 ID3 中 使 用 的 选择 属性 的 启发 式 规 则 和 它 遇 到 的 特 
定 训练 样 例 之 间 存 在 着 微妙 的 相互 作用 ,由 于 这 一 点 ,很 难 准确 地 刻 划 出 ID3 的 归纳 偏 置 。 
然而 我 们 可 以 近似 地 把 它 的 归纳 偏 置 描述 为 一 种 对 短 的 决策 树 的 偏好 。 

近似 的 ID3 算法 归纳 偏 置 : 较 短 的 树 比较 长 的 树 优先 。 

事实 上 ,我 们 可 以 想像 一 个 类 似 于 ID3 的 算法 , 它 精确 地 具有 这 种 归纳 偏 置 。 考 虑 一 种 
算法 , 它 从 一 个 空 的 树 开始 广度 优先 (breadth first) 搜 索 逐 渐 复 杂 的 树 , 先 考虑 所 有 深度 为 1 的 
树 , 然 后 所 有 深度 为 2 的,…… 一 旦 它 找到 了 一 个 与 训练 数据 一 致 的 决策 树 , 它 返回 搜索 深度 
的 最 小 的 一 致 树 ( 例 如 ,具有 最 少 结 点 的 树 )。 让 我 们 称 这 种 广度 优先 搜索 (breadth-first 
search) 算 法 为 BFS-ID3。BFS-ID3 寻找 最 短 的 决策 树 , 因 此 精确 地 具有 “ 较 短 的 树 比 较 长 的 树 
优先 "的 偏 置 。ID3 可 被 看 作 BFS-ID3 的 一 个 有 效 近 似 , 它 使 用 一 种 贪 楚 的 启发 式 搜索 企图 发 
现 最 短 的 树 , 而 不 用 进行 完整 的 广度 优先 搜索 来 遍历 假设 空间 。 

因为 ID3 使 用 信息 增益 启发 式 规则 和 “ 扑 山 "策略 , 它 包含 比 BFS-ID3 更 复杂 的 偏 置 。 尤 
其 是 , 它 并 非 总 是 找 最 短 的 一 致 树 , 而 是 倾向 于 那些 信息 增益 高 的 属性 更 靠近 根 结 点 的 树 。 

ID3 归纳 偏 填 的 更 贴切 近似 : 较 短 的 树 比 较 长 的 树 优先 。 那 些 信息 增益 高 的 属性 更 靠近 
根 结 点 的 树 优先 。 


3.6.1 限定 偏 置 和 优选 偏 置 


在 ID3 算法 和 第 2 章 中 讨论 的 候选 消除 算法 显示 出 的 归纳 偏 置 之 间 有 一 个 有 趣 的 差别 。 


下 面 考虑 一 下 这 两 种 方法 中 对 假设 空间 搜索 的 差异 : 
e ID3 的 搜索 范围 是 一 个 完整 的 假设 空间 (例如 ， 能 表示 任何 有 限 的 离散 值 函 数 的 空间 )。 
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但 它 不 彻底 地 搜索 这 个 空间 ,从 简单 的 假设 到 复杂 的 假设 ,直到 遇 到 终止 条 件 (例如 , 它 
发 现 了 一 个 与 数据 一 致 的 假设 )。 它 的 归纳 偏 置 完全 是 搜索 策略 排序 假设 的 结果 。 它 
的 假设 空间 没有 引入 额外 的 偏 置 。 

o 变型 空间 候选 消除 算法 的 搜索 范围 是 不 完整 的 假设 空间 ( 即 一 个 仅 能 表示 潜在 可 教授 
概念 子 集 的 空间 ) ,但 它 彻底 地 搜索 这 个 空间 ,查找 所 有 与 训练 数据 一 致 的 假设 。 它 的 
归纳 偏 置 完全 是 假设 表示 的 表达 能 力 的 结果 。 它 的 搜索 策略 没有 引入 额外 的 偏 置 。 

简单 地 讲 ,ID3 的 归纳 偏 置 来 自 它 的 搜索 策略 ,而 候选 消除 算法 的 归纳 偏 置 来 自 它 对 搜索 
空间 的 定义 。 

ID3 的 归纳 偏 置 是 对 某 种 假设 (例如 ,对 于 较 短 的 假设 ) 胜 过 其 他 假设 的 一 种 优选 (prefer- 
ence) , 它 对 最 终 可 列举 的 假设 没有 硬性 限制 。 这 种 类 型 的 偏 置 通常 被 称 为 优选 偏 置 (prefer- 
ence bias) (或 叫 搜索 偏 置 (search bias))。 相 反 ,候选 消除 算法 的 偏 置 是 对 待考 虑 假设 的 一 种 限 
(restriction) 。 这 种 形式 的 偏 置 通常 被 称 为 限定 偏 置 (或 者 叫 语 言 偏 置 (language bias) ) 。 

如 果 需 要 某 种 形式 的 归纳 偏 置 来 从 训练 数据 中 泛 化 ( 见 第 2 章 ) ,那么 我 们 该 优先 考虑 哪 
种 形式 的 归纳 偏 置 : 优选 偏 置 还 是 限定 偏 置 ? 

通常 ,优选 偏 置 比 限定 偏 置 更 符合 需要 ,因为 它 允 许 学 习 器 工作 在 完整 的 假设 空间 上 ,这 
保证 了 未 知 的 目标 函数 被 包含 在 内 。 相 反 ,限定 偏 置 严格 地 限制 了 假设 集合 的 潜在 空间 ,通常 
不 是 我 们 希望 的 ,因为 它 同时 引入 了 把 未 知 的 目标 函数 排除 在 外 的 可 能 性 。 

鉴于 ID3 采用 纯粹 的 优选 偏 置 而 候选 消除 算法 采用 纯粹 的 限定 偏 置 , 一 些 学 习 系 统 综合 
了 这 两 者 。 例 如 ,考虑 第 1 章 中 描述 的 下 棋 程序 的 例子 。 其 中 ,学 习 到 的 评估 函数 被 表示 为 一 
些 固定 的 棋盘 特征 的 线性 组 合 。 学 习 算法 调整 这 个 线性 组 合 的 参数 来 最 好 地 拟 合 现 有 的 训练 
数据 。 这 里 ,使 用 线性 函数 来 表示 评估 函数 的 决定 就 引 人 了 限定 偏 置 ( 非 线性 的 评估 函数 不 可 
能 被 表示 成 这 种 形式 )。 同 时 ,选择 了 有 一 个 特定 的 参数 调整 方法 (LMS 算法 ) 就 引入 了 一 个 
优选 偏 置 ,这 一 特定 参数 源 自 所 有 可 能 参数 值 空间 上 的 顺序 搜索 。 


3.6.2 为 什么 短 的 假设 优先 


ID3 算法 中 优选 较 短 决 策 树 的 归纳 偏 置 ,是 不 是 从 训练 数据 中 泛 化 的 一 个 可 靠 基础 ? 哲 
学 家 们 以 及 其 他 学 者 已 经 对 这 样 的 问题 争论 几 个 世纪 了 ,而 且 这 个 争论 至 今 尚 未 解决 。 威 廉 ， 
奥 坎 姆 大 约 在 1320 年 提出 了 类 似 的 论点 9 ,是 最 早 讨论 这 个 问题 的 人 之 一 ,所 以 这 个 偏 置 经 
常 被 称 为 “ 奥 坎 姆 剃刀 ”(Occam 's razor) o 

奥 坎 姆 剃刀 : 优先 选择 拟 合 数据 的 最 简单 的 假设 。 

当然 给 出 一 个 归纳 偏 置 的 名 字 不 等 于 证 明了 它 。 为 什么 应 该 优先 选择 较 简单 的 假设 呢 ? 
请 注意 科学 家 们 有 时 似乎 也 遵循 这 个 归纳 偏 置 。 例 如 物理 学 家 优先 选择 行星 运动 简单 的 解 
释 ,而 不 用 复杂 的 解释 ,为 什么 ? 一 种 解释 是 短 假设 的 数量 少 于 长 假设 的 数量 (基于 简单 的 参 
数组 合 ) ,所 以 找到 一 个 短 的 但 同时 与 训练 数据 拟 合 的 假设 的 可 能 性 较 小 。 相 反 ,常常 有 很 多 
非常 复杂 的 假设 拟 合 当前 的 训练 数据 ,但 却 无 法 正确 地 泛 化 到 后 来 的 数据 。 例 如 考虑 决策 树 
假设 。500 个 结 点 的 决策 树 比 5 个 结 点 的 决策 树 多 得 多 。 如 果 给 定 一 个 20 个 训练 样 例 的 集 





”显然 是 在 刮 胡须 时 想到 的 。 
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合 ,可 以 预期 能 够 找到 很 多 500 个 结 点 的 决策 树 与 训练 数据 一 致 ,而 如 果 一 个 5 个 结 点 的 决策 
树 可 以 完美 地 拟 合 这 些 数据 则 是 出 乎 意料 的 。 所 以 我 们 会 相信 5 个 结 点 的 树 不 太 可 能 是 统计 
巧合 ,因而 优先 选择 这 个 假设 ,而 不 选择 500 个 结 点 的 。 

根据 更 深入 的 分 析 , 可 以 发 现 上 面 的 解释 有 一 个 主要 的 困难 。 为 什么 我 们 不 反问 : 使 用 
同样 的 推理 ,应 该 优先 选择 包含 恰好 有 17 个 叶子 结 点 和 11 个 非 叶子 结 点 的 决策 树 ” 这 棵 树 
在 根 结 点 使 用 决策 属性 Al ,然后 以 数字 顺序 测试 属性 A, 直到 Au 。 这 样 的 决策 树 相当 少 , 因 
此 (用 和 上 面 同样 的 推理 ) ,找到 其 中 之 一 与 任意 数据 集 一 致 的 先 验 可 能 性 也 很 小 。 这 里 的 困 
难 在 于 可 以 定义 很 多 小 的 假设 集合 一 一 其 中 大 多 数 相当 了 星 汲 难 解 。 那 么 ,我 们 根据 什么 相信 
有 短 描述 (short description) 的 决策 树 组 成 的 小 假设 集合 就 比 其 他 众多 可 定义 的 小 假设 集合 更 
适当 呢 ? 

上 面 的 奥 坎 姆 剃刀 原则 的 解释 的 第 二 个 难题 是 , 假设 的 大 小 是 由 学 习 器 内 部 使 用 的 特定 
表示 决定 的 。 所 以 两 个 学 习 器 使 用 不 同 的 内 部 表示 会 得 到 不 同 的 假设 ,两 者 又 都 用 奥 坎 姆 弟 
刀 原 则 得 到 相互 矛盾 的 结论 ! 例如 ,如 果 我 们 定义 属性 XYZ, 它 对 于 被 图 3-1 的 决策 树 分 类 
为 正 例 的 实例 为 真 ,相反 为 假 ,那么 一 个 学 习 殉 就 可 以 把 图 3-1 中 决策 树 表 示 的 函数 表示 为 只 
有 一 个 决策 结 点 的 树 。 于 是 ,两 个 学 习 器 如 果 一 个 使 用 了 XYZ 属性 描述 它 的 实例 ,而 另 一 个 
只 使 用 Outlook, Temperature, Humidity 和 Wind 属性 ,但 都 应 用 奥 坎 姆 剃刀 原则 ,那么 它们 
会 以 不 同 的 方式 泛 化 。 

以 上 说 明 ,对 于 同一 套 训练 样 例 , 当 两 个 学 习 器 以 不 同 的 内 部 表示 方式 理解 和 使 用 这 些 样 
例 时 ,会 产生 两 个 不 同 的 假设 。 基 于 这 一 点 ,似乎 我 们 应 完全 抵制 奥 坎 姆 剃刀 原则 。 不 过 ,让 
我 们 看 一 看 下 面 这 个 场景 ,并 分 析 哪 一 个 内 部 表示 会 从 自然 选择 和 进化 中 脱颖而出 。 想 像 一 
个 由 人 造 的 学 习 agent 组 成 的 群体 ,这 个 群体 是 由 模拟 的 进化 过 程 产生 的 ,进化 过 程 包括 a- 
gent 的 繁殖 、 变 异 和 自然 选择 。 假 定 这 个 进化 过 程 能 够 一 代 接 一 代 地 改变 这 些 agent 的 感知 
系统 ,由 此 改变 它们 用 来 感知 世界 的 器 官 的 内 部 属性 。 出 于 论证 的 考虑 ,我 们 也 假定 这 些 学 习 
agent 采用 一 个 不 会 被 进化 所 改变 的 固定 的 算法 (比如 ID3)。 有 理由 推断 , 随 着 时 间 的 流逝 ， 
进化 会 产生 更 好 的 内 部 表示 ,使 agent 能 愈加 成 功 地 生存 在 它们 的 环境 中 。 假 定 agent 的 成 功 
依赖 于 它 精确 泛 化 的 能 力 ,我 们 可 以 期 望 ,进化 产生 的 内 部 表示 对 任何 学 习 算 法 和 归纳 偏 置 都 
有 很 好 的 性 能 。 如 果菜 个 agent 种 群 采用 了 带 有 奥 坎 姆 剃刀 归纳 偏 置 的 学 习 算法 ,那么 我 们 
期 望 进化 会 产生 适合 奥 坎 姆 剃刀 策略 的 内 部 表示 。 这 个 论点 的 精 角 在 于 ,进化 产生 的 内 部 表 
示 使 得 学 习 算 法 的 归纳 偏 置 成 为 自我 实现 的 预言 (self-fulfiling prophecy) ,只 因为 它 改 变 内 部 
表示 比 改 变 学 习 算法 更 容易 。 

我 们 暂时 放下 关于 奥 坎 姆 剃刀 的 争论 。 在 第 6 章 我 们 会 再 次 提起 这 个 话题 ,将 讨论 最 小 
描述 长 度 ( Minimum Description Length) AW , 它 是 另 一 版 本 的 奥 坎 姆 剃刀 ,可 用 贝 叶 斯 框架 
来 解释 。 


3.7 决策 树 学 习 的 常见 问题 


决策 树 学 习 的 实际 问题 包括 : 确定 决策 树 增长 的 深度 ;处 理 连续 值 的 属性 ;选择 一 个 适当 
的 属性 筛选 度量 标准 ;处 理 属 性 值 不 完整 的 训练 数据 ;人 处 理 不 同 代价 的 属性 ;提高 计算 效率 。 
下 面 我 们 讨论 每 一 个 问题 ,并 针对 这 些 问题 扩展 基本 的 ID3 算法 。 事 实 上 ,为 了 解决 其 中 的 
SRAM, D3 算法 已 经 被 扩展 了 ,扩展 后 的 系统 被 改名 为 C4.5( Quinlan 1993)。 
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3.7.1 避免 过 度 拟 合 数据 


表 3-1 描述 的 算法 增长 树 的 每 一 个 分 支 的 深度 ,直到 恰好 能 对 训练 样 例 完美 地 分 类 。 然 
而 这 个 策略 并 非 总 行 得 通 。 事 实 上 , 当 数 据 中 有 噪声 或 训练 样 例 的 数量 太 少 以 至 于 不 能 产生 
目标 函数 的 有 代表 性 的 采样 时 ,这 个 策略 便 会 遇 到 困难 。 在 以 上 任 一 种 情况 发 生 时 ,这 个 简单 
的 算法 产生 的 树 会 过 度 拟 合 训练 样 例 。 

对 于 一 个 假设 , 当 存 在 其 他 的 假设 对 训练 样 例 的 拟 合 比 它 差 ,但 事实 上 在 实例 的 整个 分 布 
(也 就 是 包含 训练 集合 以 外 的 实例 ) 上 表现 得 却 更 好 时 ,我 们 说 这 个 假设 过 度 拟 合 (overfit) 训 
练 样 例 。 


定义 :给 定 一 个 假设 空间 刀 , 一 个 假设 hE ,如果 存 在 其 他 的 假设 h E H, EEA 
EAE h 的 错误 率 比 h' 小 ,但 在 整个 实例 分 布 上 h' 的 错误 率 比 hh 小 ,那么 就 说 假设 h 过 度 拟 
合 (overfit) 训 练 数据 。 


图 3-6 画 出 了 在 决策 树 学 习 的 一 个 典型 应 用 中 过 度 拟 合 的 影响 。 在 这 个 例子 中 ,ID3 算 
法 用 来 学 习 哪 一 个 病人 患 有 某 种 糖尿 病 。 这 幅 图 的 横 轴 表示 在 决策 树 创建 过 程 中 树 的 结 点 总 
数 , 纵 轴 表 示 决 策 树 作 出 的 预测 的 精度 。 实 线 显示 决策 树 在 训练 样 例 上 的 精度 ,虚线 显示 在 一 
套 独立 的 测试 样 例 (没有 被 包括 在 训练 样 例 中 ) 上 测量 出 的 精度 。 可 以 看 出 , 随 着 树 的 增长 ,在 
训练 样 例 上 的 精度 是 单调 上 升 的 。 然 而 ,在 独立 的 测试 样 例 上 测 出 的 精度 先 上 升 后 下 降 。 如 
图 所 示 , 当 树 超过 大 约 25 个 结 点 时 ,对 树 的 进一步 精 化 尽管 可 以 提高 它 在 训练 数据 上 的 精度 ， 
却 降低 了 它 在 测试 样 例 上 的 精度 。 
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树 的 规模 ( 结 点 数 ) 
随 着 ID3 算法 增加 新 的 结 点 增长 决策 树 ,在 训练 样 例 上 的 精度 是 单调 上 升 的 。 然 而 ,在 独立 于 训练 样 例 的 测试 
样 例 上 ,精度 先 上 升 后 下 降 。 实 验 这 个 图 所 需 的 软件 和 数据 可 以 通过 网 址 http://www .cs. cmu. edu/ ~ tom/ml- 
book . html 得 到 
图 3-6 ”决策 树 学 习 中 的 过 度 拟 合 


是 什么 原因 导致 树 h 比 树 及 更 好 地 拟 合 训练 样 例 ,但 对 于 后 来 的 实例 却 表 现 更 差 呢 ?这 
种 情况 发 生 的 一 种 可 能 原因 是 训练 样 例 含有 随机 错误 或 噪声 。 举 例 说 明 , 考 虑 在 表 3-2 的 原 
本 正确 的 样 例 中 加 入 一 条 训练 正 例 ,但 却 被 误 标 示 为 反例 ,如 下 : 
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( Outlook = Sunny , Temperature = Hot , Humidity = Normal , Wind = Strong , Play Tennis = No) 

对 于 本 来 没有 错误 的 数据 ,ID3 生成 图 3-1 表示 的 决策 树 。 然 而 ,增加 这 个 不 正确 的 样 例 
导致 1D3 建立 一 个 更 复杂 的 树 。 确 切 地 讲 ,新 的 样 例会 被 排列 到 图 3-1 表示 的 树 的 左 起 第 二 
个 叶子 结 点 ,与 以 前 的 正 例 D9 和 D11 排 在 一 起 。 因 为 新 的 样 例 被 标记 为 反例 ,所 以 ID3 会 在 
这 个 结 点 下 面 进一步 搜索 更 多 的 细节 。 当 然 只 要 新 的 错误 样 例 与 原来 这 个 结 点 的 两 个 样 例 有 
任何 差异 ,ID3 会 成 功 找 到 一 个 新 的 决策 属性 来 把 新 的 样 例 从 以 前 的 两 个 正 例 中 分 开 。 这 样 
的 结果 是 ID3 会 输出 一 个 决策 树 (h), 它 比 图 3-1 中 原来 的 树 (h') 更 复杂 。 当 然 ,h 会 完美 地 
拟 合 训练 样 例 集 ,而 较 简 单 的 h' 不 会 。 然 而 ,由 于 新 的 决策 结 点 只 是 拟 合 训练 样 例 中 噪声 的 
结果 ,我 们 可 以 断定 在 取 自 同一 实例 分 布 的 后 续 数 据 上 ,hi' 会 胜 过 及 。 

上 面 的 例子 演示 了 训练 样 例 中 的 随机 噪声 如 何 导 致 过 度 拟 合 。 事 实 上 , 当 训 练 数据 没有 

曲 声 时 ,过 度 拟 合 也 有 可 能 发 生 , 特 别 是 当 少 量 的 样 例 被 关联 到 叶子 结 点 时 。 这 种 情况 下 ,很 
可 能 出 现 巧合 的 规律 性 ,使 得 一 些 属 性 恰巧 可 以 很 好 地 分 割 样 例 ,但 却 与 实际 的 目标 函数 并 无 
关系 。 一 旦 这 样 巧合 的 规律 性 存在 ,就 有 过 度 拟 合 的 风险 。 

过 度 拟 合 对 于 决策 树 学 习 和 其 他 很 多 学 习 算 法 是 一 个 重要 的 实践 难题 。 鲍 如 ,在 一 次 关 

于 ID3 算法 的 实验 研究 中 (Mingers 1989b) ,对 于 涉及 5 种 带 有 噪声 和 不 确定 数据 的 不 同 研究 
中 ,人 们 发 现在 多 数 问 题 中 过 度 拟 合 使 决策 树 的 精度 降低 了 10%-2S% 。 

有 几 种 途径 可 被 用 来 避免 决策 树 学 习 中 的 过 度 拟 合 。 它 们 可 被 分 为 两 类 : 

o 及 早 停 止 树 增长 ,在 ID3 算法 完美 分 类 训练 数据 之 前 就 停止 树 增长 ; 

© 后 修剪 法 (post-prune) , 即 允 许 树 过 度 拟 合 数据 ,然后 对 这 个 树 进行 后 修剪 。 

尽管 第 一 种 方法 可 能 看 起 来 更 直接 ,但 是 对 过 度 拟 合 的 树 进行 后 修剪 的 第 二 种 方法 被 证 

明 在 实践 中 更 成 功 。 这 是 因为 在 第 一 种 方法 中 精确 地 估计 何 时 停止 树 增长 很 困难 。 

无 论 是 通过 及 早 停止 还 是 后 修剪 来 得 到 正确 规模 的 树 ,一 个 关键 的 问题 是 使 用 什么 样 的 

准则 来 确定 最 终 正确 树 的 规模 。 解 决 这 个 问题 的 方法 包括 : 

© 使 用 与 训练 样 例 截然 不 同 的 一 套 分 离 的 样 例 ,来 评估 通过 后 修剪 方法 从 树 上 修剪 结 点 
的 效用 。 

o 使 用 所 有 可 用 数据 进行 训练 ,但 进行 统计 测试 来 估计 扩展 (或 修剪 ) 一 个 特定 的 结 点 是 
否 有 可 能 改善 在 训练 集合 外 的 实例 上 的 性 能 。 例 如 , Quinlan ( 1986 ) 使 用 一 种 卡 方 
《chi-square) 测 试 来 估计 进一步 扩展 结 点 是 否 能 改善 在 整个 实例 分 布 上 的 性 能 ,还 是 仅 
仅 改 善 了 当前 的 训练 数据 上 的 性 能 。 

o 使 用 一 个 明确 的 标准 来 衡量 训练 样 例 和 决策 树 的 复杂 度 , 当 这 个 编码 的 长 度 最 小 时 停 
止 树 增长 。 这 个 方法 基于 一 种 启发 式 规则 ,被 称 为 最 小 描述 长 度 ( Minimum Description 
Length) 的 准则 ,我 们 将 在 第 6 章 中 讨论 这 种 方法 。Quinlan & Rivest(1989) 和 Mehta et 
al.(1995) 也 讨论 了 这 种 方法 。 

上 面 的 第 一 种 方法 是 最 普通 的 , 它 常 被 称 为 训练 和 验证 集 (training and validation set) 法 。 

下 面 我 们 讨论 这 种 方法 的 两 个 主要 变种 。 这 种 方法 中 ,可 用 的 数据 被 分 成 两 个 样 例 集合 : 一 
个 训练 集合 用 来 形成 学 习 到 的 假设 ， 一 个 分 离 的 验证 集合 用 来 评估 这 个 假设 在 后 续 数 据 上 的 
精度 ， 确 切 地 说 是 用 来 评估 修剪 这 个 假设 的 影响 。 这 个 方法 的 动机 是 : 即使 学 习 器 可 能 会 被 
训练 集合 中 的 随机 错误 和 巧合 规律 性 所 误导 ,但 验证 集合 不 大 可 能 表现 出 同样 的 随机 波动 。 
所 以 ,验证 集合 可 以 用 来 对 过 度 拟 合 训练 集中 的 虚假 特征 提供 防护 检验 。 当 然 , 很 重要 的 一 点 
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是 验证 集合 应 该 足够 大 ,以 便 它 本 身 可 提供 具有 统计 意义 的 实例 样本 。 一 种 常见 的 做 法 是 取 
出 可 用 样 例 的 三 分 之 一 用 作 验 证 集合 ,用 另外 三 分 之 二 作 训 练 集合 。 

1. 错 误 率 降低 修剪 

使 用 验证 集合 来 防止 过 度 拟 合 的 确切 方法 是 什么 ? 一 种 称 为 “错误 率 降 低 修 剪 "(reduced- 
error pruning ) 的 方法 (Quinlan 1987) 是 考虑 将 树 上 的 每 一 个 结 点 作为 修剪 的 候选 对 象 。 修 剪 
一 个 结 点 由 以 下 步骤 组 成 : 删除 以 此 结 点 为 根 的 子 树 ;使 它 成 为 叶子 结 点 ;把 和 该 结 点 关联 的 
训练 样 例 的 最 常见 分 类 赋 给 它 。 仅 当 修剪 后 的 树 对 于 验证 集合 的 性 能 不 比 原 来 的 树 差 时 才 删 
除 该 结 点 。 这 样 便 使 因为 训练 集合 的 巧合 规律 性 而 加 入 的 结 点 很 可 能 被 删除 ,因为 同样 的 巧 
合 不 大 会 发 生 在 验证 集合 中 。 反 复 地 修剪 结 点 ,每 次 总 是 选取 那些 删除 后 可 以 最 大 提高 决策 
树 在 验证 集合 上 的 精度 的 结 点 。 继 续 修 剪 结 点 直到 进一步 的 修剪 是 有 害 的 为 止 (也 就 是 降低 
了 在 验证 集合 上 的 精度 )。 

“错误 率 降低 修剪 "对 决策 树 精度 的 影响 被 画 在 图 3-7 中 。 和 图 3-6 一 样 ,图 3-7 显示 了 在 
训练 样 例 和 测试 样 例 上 的 决策 树 精度 。 图 3-7 中 另外 一 条 线 显示 的 是 随 着 树 的 修剪 , 它 在 测 
试 样 例 上 的 精度 变化 。 当 修剪 开始 时 , 树 的 规模 最 大 ,并 且 它 在 测试 样 例 上 的 精度 最 小 。 随 着 
修剪 的 进行 , 结 点 的 数量 下 降 ,但 在 测试 集合 上 的 精度 上 升 。 这 里 可 供 使 用 的 数据 已 经 被 分 成 
3 个 子 集 : 训练 样 例 \, 供 修剪 树 用 的 验证 样 例 和 一 个 测试 样 例 集合 。 测 试 样 例 用 来 提供 在 未 
来 的 未 见 实例 上 的 精度 的 无 偏 估计 。 图 中 显示 了 在 训练 集 和 测试 集 上 的 精度 。 在 用 作 修 剪 的 
验证 集合 上 的 精度 没有 画 出 来 。 





“0 10 2 3 40 SO 6 70 8 9% 100 
树 的 规模 ( 结 点 数量 ) 


这 幅 图 显示 了 与 图 3-6 同样 的 在 训练 集 和 测试 集 上 的 精度 曲线 。 另 外 , 它 显示 了 “错误 率 降低 修剪 "对 IDS 算法 
产生 的 树 的 影响 。 注 意 随 着 树 结 点 的 剪除 ,决策 树 在 测试 集合 上 的 精度 上 升 。 这 里 , 供 修剪 用 的 验证 集合 与 训 
练 和 测试 集合 都 是 完全 不 同 的 

图 3-7 决策 树 学 习 中 错误 率 降低 修剪 的 效果 


如 果 有 大 量 的 数据 可 供 使 用 ,那么 使 用 分 离 的 数据 集合 来 引导 修剪 是 一 个 有 效 的 方法 。 这 个 
方法 的 主要 缺点 是 当 数 据 有 限时 ,从 中 保留 一 部 分 用 作 验 证 集合 进一步 减少 了 训练 可 以 使 用 的 样 
例 。 下 一 节 给 出 了 另 一 种 修剪 方法 ,在 数据 有 限 的 许多 实际 情形 下 ,这 种 方法 很 有 效 。 人 们 还 提出 
了 许多 其 他 的 技术 。 例 如 ,以 不 同 的 方式 多 次 分 割 可 供 使 用 的 数据 ,然后 将 得 到 的 结果 平均 。 
Mingers(1989b) 和 Malerba et al.(1995) 中 报告 了 对 不 同 树 修剪 方法 的 经 验 评估 。 
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2. LM 1H 
SER AP, — AH FH Ae BL EBR AR FS TE A“ XG BW” (rule post-pruning) o 
这 种 修剪 方法 的 一 个 变 体 被 用 在 C4.5 H (Quinlan 1993) ,C4.5 是 从 原始 的 ID3 算法 的 派生 出 
来 的 。 规 则 后 修剪 包括 下 面 的 步 又: 
1) 从 训练 集合 推导 出 决策 树 , 增 长 决策 树 直 到 尽 可 能 好 地 拟 合 训练 数据 , 允许 过 度 拟 合 
发 生 。 

2) 将 决策 树 转化 为 等 价 的 规则 集合 ,方法 是 为 从 根 结 点 到 叶子 结 点 的 每 一 条 路 径 创 建 一 
条 规则 。 

3) 通过 删除 任何 能 导致 估计 精度 提高 的 前 件 (preconditions) 来 修剪 ( 泛 化 ) 每 一 条 规则 。 

4) 按照 修剪 过 的 规则 的 估计 精度 对 它们 进行 排序 ,并 按 这 样 的 顺序 应 用 这 些 规则 来 分 类 
后 来 的 实例 。 

为 了 演示 以 上 过 程 ,再 次 考虑 图 3-1 中 的 决策 树 。 在 “规则 后 修剪 "算法 中 ,为 树 中 的 每 个 
叶子 结 点 产生 一 条 规则 。 从 根 结 点 到 叶子 结 点 路 径 上 的 每 一 个 属性 的 测试 称 为 一 个 规则 的 先 
行 词 ( 即 前 件 ) ,叶子 结 点 的 分 类 称 为 规则 的 结论 ( 即 后 件 )。 例 如 ,图 3-1 中 树 的 最 左 一 条 路 径 
被 转换 成 规则 : 

IF ( Outlook = Sunny ) A¢ Humidity = High) 
THEN PlayTennis = No 

接 下 来 ,通过 删除 不 会 降低 估计 精度 的 先行 词 来 修剪 每 一 个 规则 。 例 如 对 于 上 面 的 规则 ， 
规则 后 修剪 算法 会 考虑 删除 先行 词 ( Outlook = Sunny) 和 ( Humidity = High )。 它 会 选择 这 些 
修剪 步骤 中 使 估计 精度 有 最 大 提升 的 步骤 ,然后 考虑 修剪 第 二 个 前 件 作为 进一步 的 修剪 步骤 。 
如 果 某 个 修剪 步 又 降低 了 估计 精度 ,那么 这 个 步骤 不 会 被 执行 。 

如 同 前 面 提 出 的 ,估计 规则 精度 的 一 种 方法 是 使 用 与 训练 集 和 不 相交 的 验证 集合 。 田 一 
种 被 C4.5 使 用 的 方法 是 基于 训练 集合 本 身 评估 性 能 ,但 使 用 一 种 保守 估计 (pessimistic esti- 
mate) 来 弥补 训练 数据 有 利于 当前 规则 的 估计 偏 置 。 更 准确 地 讲 , C4.5 通过 以 下 方法 计算 保 
守 估 计 , 先 计算 规则 在 它 应 用 的 训练 样 例 上 的 精度 ,然后 假定 此 估计 精度 为 二 项 分 布 ,并 计算 
它 的 标准 差 (standard deviation) 。 对 于 一 个 给 定 的 置信 区 间 ,采用 下 界 估计 作为 规则 性 能 的 度 
量 (例如 ,对 于 一 个 9$ 色 的 置信 区 间 ,规则 精度 被 保守 估计 为 : 在 训练 集合 上 的 观察 精度 减 去 
1.96 乘 估计 的 标准 差 )。 这 样 做 的 效果 是 ,对 于 大 的 数据 集 ,保守 预测 非常 接近 观察 精度 (也 
就 是 标准 差 非常 小 ) ,然而 随 着 数据 集合 的 减 小 , 它 开 始 离 观 察 精度 越 来 越 远 。 虽 然 这 种 局 发 
式 方法 不 是 统计 有 效 (statistically valid) 的 ,但 是 已 经 发 现 它 在 实践 中 是 有 效 的 。 第 5 章 讨 论 
了 统计 有 效 的 预测 均值 和 置信 区 间 的 方法 。 

为 什么 修剪 之 前 要 把 决策 树 转化 成 规则 集 呢 ? 这 样 做 主要 有 三 个 好 处 : 

e 转化 为 规则 集 可 以 区 分 决策 结 点 使 用 的 不 同上 下 文 。 因 为 贯穿 决策 结 点 的 每 条 不 同 路 

径 产 生 一 条 不 同 的 规则 ,所 以 对 于 不 同 路 径 ,关于 一 个 属性 测试 的 修剪 决策 可 以 不 同 。 
相反 ,如果 直 接 修剪 树 本 身 , 只 有 两 个 选择 ,要 么 完全 删除 决策 结 点 ,要 么 保留 它 的 本 来 
状态 。 

e 转化 为 规则 集 消除 了 根 结 点 附近 的 属性 测试 和 叶 结 点 附近 的 属性 测试 的 区 别 。 于 是 避 

免 了 零乱 的 记录 问题 ,比如 ,若是 根 结 点 被 修剪 了 但 保留 它 下 面 的 部 分 子 树 时 如 何 重 新 
组 织 这 棵 树 。 
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© 转化 为 规则 以 提高 可 读 性 。 对 人 来 说 ,规则 总 是 更 容易 理解 。 
3.7.2 合并 连续 值 属性 


我 们 最 初 的 1D3 定义 被 限制 为 取 离散 值 的 属性 。 首 先 ,学 习 到 的 决策 树 要 预测 的 目标 属 
性 必须 是 离散 的 。 其 次 , 树 的 决策 结 点 的 属性 也 必须 是 离散 的 。 可 以 简单 地 删除 第 二 个 限制 ， 
以 便 把 连续 值 的 决策 属性 加 入 到 决策 树 中 。 这 可 以 通过 动态 地 定义 新 的 离散 值 属性 来 实现 ， 
即 先 把 连续 值 属 性 的 值 域 分 割 为 离散 的 区 间 和 集合。 例如 ,对 于 连续 值 的 属性 4 ,算法 可 动态 
地 创建 一 个 新 的 布尔 属性 4., 如 果 4 < c, 那 么 为 A 真 ,否则 为 假 。 惟 一 的 问题 是 如 何 选取 
BEN BA co 

举例 来 说 ,假定 我 们 希望 在 表 3-2 的 学 习 任务 中 包含 连续 值 的 属性 Temperature 来 描述 
训练 样 例 。 对 于 与 决策 树 的 特定 结 点 关联 的 训练 样 例 ,进一步 假定 其 属性 Temperature 和 目 
标 属 性 Play Tennis 的 值 如 下 : 


Temperature: 40 48 60 72 80 90 
PlayTennis: No No Yes Yes Yes No 


对 属性 Temprature ,应 该 定义 什么 样 的 基于 立 值 的 布尔 局 性 呢 ? 我 们 无 疑 会 选择 产生 最 
Ke RBA c。 首 先 按照 连续 属性 4 排序 样 例 ,然后 确定 目标 分 类 不 同 的 相 邻 实例 ， 
于 是 我 们 可 以 产生 一 组 候选 阔 值 ,它们 的 值 是 相应 的 4 值 之 间 的 中 间 值 。 可 以 证 明 产生 最 大 
信息 增益 的 值 必定 位 于 这 样 的 边界 中 (Fayyad 1991)。 然 后 可 以 通过 计算 与 每 个 候选 阐 值 
关联 的 信息 增益 评估 这 些 候选 值 。 在 当前 的 例子 中 ,有 两 个 候选 阔 值 ,它们 对 应 于 目标 属性 
PlayTennis 变化 时 属性 Temperature 的 值 : (48 + 60)/2 和 (80 + 90)/2。 然 后 计算 每 一 个 候 
` 选 属性 Temperature >54 和 Temperature 8s 的 信息 增益 ,并 选择 最 好 的 ( Temperature >s4)。 
现在 这 个 动态 创建 的 布尔 属性 便 可 以 和 其 他 候选 的 离散 值 属 性 一 同 “ 竞 争 " ,以 用 于 增长 决策 
树 。Fayyad & Irani(1993) 讨 论 了 这 种 方法 的 一 个 扩展 , 即 把 连续 的 属性 分 割 成 多 个 区 间 ,而 
不 是 基于 单一 阐 值 的 两 个 区 间 。Utgoff & Brodley(1991) 和 Murthy et al. (1994) 讨 论 了 通过 
对 几 个 连续 值 属性 的 线性 组 合 定义 阔 值 参数 的 方法 。 


3.7.3 属性 选择 的 其 他 度量 标准 


信息 增益 度量 存在 一 个 内 在 偏 置 , 它 偏 祖 具有 较 多 值 的 属性 。 举 一 个 极端 的 例子 ,考虑 属 
性 Date, 它 有 大 量 的 可 能 值 (例如 , March 4,1979)。 要 是 我 们 把 这 个 属性 加 到 表 3-2 的 数据 
中 , 它 在 所 有 属性 中 有 最 大 的 信息 增益 。 这 是 因为 单独 Date 就 可 以 完全 预测 训练 数据 的 目标 
属性 。 于 是 这 个 属性 会 被 选 作 树 的 根 结 点 的 决策 属性 并 形成 一 棵 深度 为 一 级 但 却 非常 宽 的 
树 , 这 标 树 可 以 理想 地 分 类 训练 数据 。 当 然 ,这 个 决策 树 对 于 后 来 数据 的 性 能 会 相当 差 ,因为 
尽管 它 完美 地 分 割 了 训练 数据 ,但 它 不 是 一 个 好 的 预测 器 (predictor)。 

属性 Date 出 了 什么 问题 呢 ? 简单 地 讲 , 是 因为 太 多 的 可 能 值 必然 把 训练 样 例 分 割 成 非常 
小 的 空间 。 因 此 ,相对 训练 样 例 , 它 会 有 非常 高 的 信息 增益 ,尽管 对 于 未 见 实例 它 是 一 个 非常 
差 的 目标 函数 预测 器 。 

避免 这 个 不 足 的 一 种 方法 是 用 其 他 度量 而 不 是 信息 增益 来 选择 决策 属性 。 一 个 可 以 选择 
的 度量 标准 是 增益 比率 (gain ratio)( Quinlan 1986) 。 增 益 比率 通过 加 入 一 个 被 称 作 分 裂 信息 











54 HEF FT 





(split information) 的 项 来 惩罚 类 似 Date 的 属性 ,分裂 信 息 用 来 衡量 属性 分 裂 数据 的 广度 和 均 
SJE: 
SplitInformation(S,A) =- > | ` l logy 5 ! 
其 中 , S, 到 S, 是 e 个 值 的 属性 4 DAS 而 形成 的 e 个 样 例子 集 。 注 意 分 裂 信 息 实际 上 
就 是 $ 关于 属性 4 HSE. KYRA AA), ERR BR RB $ 关于 
oF J BAO Se A AY) Bs EERI o 
增益 比率 度量 是 用 前 面 的 增益 度量 和 这 里 的 分 裂 信 息 度 量 来 共同 定义 的 , 即 ; 


. . Gain(S,A) 
GainRatio(S,A) = SplitInformation(S,A) (3.6) 


请 注意 ,分 裂 信息 项 阻碍 选择 值 为 均匀 分 布 的 属性 。 例 如 ,考虑 一 个 含有 n 个 样 例 的 集 
合 被 属性 4 彻底 分 割 2。 这 时 分 裂 信 息 的 值 为 lgzn。 相 反 , 一 个 布尔 属性 B 分 割 同样 的 mn 
个 实例 ,如 果 恰 好 平分 两 半 ,那么 分 裂 信息 是 1。 如 果 属 性 4 和 B 产生 同样 的 信息 增益 ,那么 
根据 增益 比率 度量 ,显然 B 得 分 更 高 。 

使 用 增益 比率 代替 增益 来 选择 属性 产生 的 一 个 实际 问题 是 , 当 某 个 5; 使 | 5;1 二 1S1 时 ， 
分 母 可 能 为 0 或 非常 小 。 如 果 某 个 属性 对 于 S 的 所 有 样 例 有 几乎 同样 的 值 ,这 时 要 么 导致 增 
益 比 率 未 定义 ,要 么 是 增益 比率 非常 大 。 为 了 避免 选择 这 种 属性 ,我们 可 以 采用 这 样 一 些 启发 
式 规 则 ,比如 先 计算 每 个 属性 的 增益 ,然后 仅 对 那些 增益 高 过 平均 值 的 属性 应 用 增益 比率 测试 
(Quinlan 1986) 。 

除了 信息 增益 , Lopez de Mantaras(1991) 介 绍 了 另 一 种 直接 针对 上 述 问题 而 设计 的 基于 
距离 的 (distance-based) 度 量 。 这 个 度量 标准 定义 了 数据 划分 间 的 一 种 距离 尺度 。 每 个 属性 的 
评估 根据 它 产生 的 划分 与 理想 划分 (也 就 是 完美 分 类 训练 数据 的 划分 ) 间 的 距离 。 然 后 选择 划 
分 最 接近 完美 划分 的 属性 。Lopez de Mantaras (1991) 定 义 了 这 个 距离 度量 ,证 明了 它 不 偏向 
有 大 量 值 的 属性 ,并 报告 了 其 实验 研究 ,说 明 这 种 方法 产生 的 决策 树 的 预测 精度 与 增益 法 和 增 
益 比 率 法 得 到 的 结果 没有 明显 的 差别 。 而 且 这 种 距离 度量 避免 了 增益 比率 度量 的 实际 困难 。 
在 他 的 实验 中 ,对 于 属性 值 个 数 差异 非常 大 的 数据 集 ,这 种 方法 产生 了 效果 很 好 的 较 小 的 树 。 

此 外 ,学 者 们 还 提出 了 许多 种 属性 选择 度量 (例如 ,Breiman et al. 1984, Mingers 1989a, 
Kearns & Mansour 1996, Dietterich et al. 1996), Mingers( 1989a) 提 供 了 实验 分 析 , 比较 了 针 
对 不 同 问 题 的 几 种 选择 度量 的 有 效 度 。 他 报告 了 使 用 不 同属 性 选择 度量 产生 的 未 修剪 决策 树 
的 大 小 的 显著 差异 。 然 而 在 他 的 实验 中 ,不 同 的 属性 选择 度量 对 最 终 精 度 的 影响 小 于 后 修剪 
的 程度 和 方法 对 最 终 精度 的 影响 。 


3.7.4 ”处 理 缺 少 属性 值 的 训练 样 例 


在 某 些 情况 下 ,可 供 使 用 的 数据 可 能 缺少 某 些 属性 的 值 。 例 如 ,在 医学 领域 我 们 希望 根据 
多 项 化 验 指标 预测 患者 的 结果 ,然而 可 能 仅 有 部 分 患者 具有 验 血 结果 。 在 这 种 情况 下 ,经常 需 
要 根据 此 属性 值 已 知 的 其 他 实例 来 估计 这 个 缺少 的 属性 值 。 








(3.5) 








O 分 成 上 组 , 苑 一 个 样 例 一 组 。 一 一 译 者 注 。 
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考虑 以 下 情况 ,为 了 评估 属性 4 是 否 是 决策 结 点 ”的 最 佳 测试 属性 ,要 计算 决策 树 在 该 
结 点 的 信息 增益 Gain(S, A)o BEC, c(x)) dE S 中 的 一 个 训练 样 例 , 并 且 其 属性 4 的 值 
A(x) 未 知 。 

处 理 缺 少 属性 值 的 一 种 策略 是 赋 给 它 结 点 n 的 训练 样 例 中 该 属性 的 最 常见 值 。 另 一 种 
策略 是 可 以 赋 给 它 结 点 n 的 被 分 类 为 c(x ) 的 训练 样 例 中 该 属性 的 最 常见 值 。 然 后 使 用 这 个 
估计 值 的 训练 样 例 就 可 以 被 现 有 的 决策 树 学 习 算 法 使 用 了 。Mingers(1989a) 分 析 了 这 个 策 
略 。 

第 二 种 更 复杂 的 策略 是 为 4 的 每 个 可 能 值 赋予 一 个 概率 , 而 不 是 简单 地 将 最 常见 的 值 赋 
给 A(x). PEA A ”的 样 例 上 A 的 不 同 值 的 出 现 频率 ,这 些 概 率 可 以 被 再 次 估计 。 例 如 ， 
给 定 一 个 布尔 属性 4 ,如 果 结 点 n 包含 6 个 已 知 4 =1 和 4 个 4 =0 的 样 例 ,那么 4(x)=1 
的 概率 是 0.6, 4 (x)=0 的 概率 是 0.4。 于 是 ,实例 x 的 60% 被 分 配 到 4 = 1 的 分 支 ,40% 被 
分 配 到 另 一 个 分 支 。 这 些 片 断 样 例 (fractional examples) 的 目的 是 计算 信息 增益 ,另外 ,如 果 有 
第 二 个 缺少 值 的 属性 必须 被 测试 ,这 些 样 例 可 以 在 后 继 的 树 分 支 中 被 进一步 细 分 。 上 述 的 样 
例 的 片断 也 可 以 在 学 习 之 后 使 用 ,用 来 分 类 缺少 属性 的 新 实例 。 在 这 种 情况 下 ,新 实例 的 分 类 
就 是 最 可 能 的 分 类 ,计算 的 方法 是 通过 在 树 的 叶 结 点 对 按 不 同方 式 分 类 的 实例 片断 的 权 求 和 。 
C4.5( Quinlan 1993) 使 用 这 种 方法 处 理 缺 少 的 属性 值 。 


3.7.5 ”处 理 不 同 代价 的 属性 


在 某 些 学 习 任 务 中 ,实例 的 属性 可 能 与 代价 相关 。 例 如 ,在 学 习 分 类 疾病 时 ,我 们 可 能 以 
这 些 属性 来 描述 患者 : 体温 , 活 组 织 切 片 检查 、 脉 搏 、 血 液化 验 结果 等 。 这 些 属性 在 代价 方面 
差别 非常 大 ,不 论 是 所 需 的 费用 还 是 患者 要 承受 的 不 适 。 对 于 这 样 的 任务 ,我 们 将 优先 选择 尽 
可 能 使 用 低 代 价 属性 的 决策 树 , 仅 当 需 要 产生 可 靠 的 分 类 时 才 依赖 高 代价 属性 。 

通过 引入 一 个 代价 项 到 属性 选择 度量 中 ,可 以 使 ID3 算法 考虑 属性 代价 。 例 如 ,我们 可 
以 用 信息 增益 除 以 属性 的 代价 ,以 使 低 代 价 的 属性 会 被 优先 选择 。 虽 然 这 种 代价 敏感 度量 不 
保证 找到 最 优 的 代价 敏感 决策 树 ,但 它们 确实 使 搜索 偏 置 到 有 利于 低 代价 属性 。 

Tan & Schlimmer(1990) 和 Tan(1993) 描 述 了 一 种 这 样 的 方法 ,并 把 它 应 用 到 机 器 人 感知 
任务 中 。 在 这 个 任务 中 ,机 器 人 必须 根据 这 些 物 体 如何 能 被 它 的 机 械 手 抓 住 ,从 而 学 会 分 辨 不 
同 的 物体 。 这 种 情况 下 ,属性 对 应 于 机 器 人 身上 的 移动 声 纳 获得 的 不 同 传感器 读数 。 属 性 的 
代价 通过 定位 或 操作 声 纳 来 获取 属性 值 所 需 的 秒 数 来 衡量 。 他 们 证 明 , 通 过 用 下 面 的 度量 代 
蔡 信息 增益 属性 选择 度量 ,学 到 了 更 加 有 效 的 识别 策略 ,同时 没有 损失 分 类 的 精度 。 


Gain?(S, A) 
Cost( A) 


Nunez(1988) 中 描述 了 一 种 有 关 的 方法 ,并 把 它 应 用 到 学 习 医 疗 诊断 规则 上 。 这 里 属性 
是 具有 不 同 代价 的 不 同 症状 和 化 验 测试 。 它 的 系统 使 用 了 稍 有 不 同 的 属性 选择 度量 : 


FCain(S,4) _ 4 
(Cost(A) +1)” 
其 中 , w E10,1] 是 一 个 常数 ,决定 代价 对 信息 增益 的 相对 重要 性 。Nunez(1991) 针 对 一 系 
列 任务 给 出 了 这 两 种 方法 的 经 验 对 比 。 

















3.8 


小 结 和 补充 读物 
本 章 的 要 点 包括 : 


© 决策 树 学 习 为 概念 学 习 和 学 习 其 他 离散 值 的 函数 提供 了 一 个 实用 的 方法 。ID3 系列 算 
法 使 用 从 根 向 下 增长 法 推断 决策 树 ,为 每 个 要 加 入 树 的 新 决策 分 支 仿 焚 地 选择 最 佳 的 
属性 。 

© ID3 算法 搜索 完整 的 假设 空间 (也 就 是 说 ,决策 树 空间 能 够 表示 定义 在 离散 值 实例 上 的 
任何 离散 值 函 数 )。 所 以 它 避 免 了 仅 考 虑 有 限 的 假设 集合 的 方法 的 主要 问题 目标 函 
数 可 能 不 在 假设 空间 中 。 

© 隐 含 在 ID3 算法 中 的 归纳 偏 置 包括 优先 选择 较 小 的 树 , 也 就 是 说 , 它 通 过 对 假设 空间 的 
搜索 增长 树 ,使 树 的 大 小 为 正好 能 分 类 已 有 的 训练 样 例 。 

e@ 过 度 拟 合 训练 数据 是 决策 树 学 习 中 的 重要 问题 。 因 为 训练 样 例 仅仅 是 所 有 可 能 实例 的 
一 个 样本 ,向 树 增加 分 支 可 能 提高 在 训练 样 例 上 的 性 能 ,但 却 降低 在 训练 实例 外 的 其 他 
实例 上 的 性 能 。 因 此 ,后 修剪 决策 树 的 方法 对 于 避免 决策 树 学 习 中 (和 其 他 使 用 优选 偏 
置 的 归纳 推理 方法 ) 的 过 度 拟 合 是 很 重要 的 。 

o 对 于 基本 ID3 算法 ,研究 者 已 经 开发 了 大 量 的 扩展 。 其 中 包括 后 修剪 的 方法 ;处 理 实数 
值 的 属性 ;容纳 缺少 属性 值 的 训练 样 例 ; 当 有 了 新 的 训练 实例 时 递增 地 精 化 决策 树 ;使 
用 信息 增益 之 外 的 其 他 属性 选择 度量 ;考虑 与 实例 属性 关联 的 代价 。 

关于 决策 树 学 习 的 最 早 的 著作 有 Hunt 的 概念 学 习 系统 (Concept Learning System, CLS) 


(Hunt et al. 1966) 以 及 Friedman 和 Breiman 的 CART 系统 (Friedman 1977, Breiman et al. 
1984), Quinlan 的 ID3 系统 (Quinlan 1979,1983) 构 成 了 本 章 讨论 的 基础 。 决 策 树 学 习 的 其 他 
早期 著作 包括 ASSISTANT(Kononenko et al. 1984, Cestnik et al. 1987)。 决 策 树 归纳 算法 在 
多 数 计算 机 平台 上 的 实现 可 用 商业 方式 得 到 。 


关于 决策 树 归纳 的 进一步 细节 , Quinlan(1993) 写 了 一 本 精彩 的 著作 ,其 中 讨论 了 很 多 实 


践 问 题 ,并 提供 了 C4.5 算法 的 代码 。Mingers(1989a) 和 Buntine & Niblett(1992) 提 供 了 比较 
不 同属 性 选择 度量 的 实验 研究 。Mingers(1989b) 提 供 了 对 不 同 修剪 策略 的 研究 。 比 较 决 策 树 
学 习 和 其 他 学 习 方 法 的 试验 可 在 众多 的 论文 中 找到 ,包括 Dietterich et al. 1995, Fisher & 
McKusick 1989, Quinlan 1988a、Shavlik et al. 1991、Thrun et al. 1991 以 及 Weiss and 


Kapouleas 1989, 
习题 


3.1 


3.2 


画 出 表示 下 面 布 尔 函 数 的 决策 树 : 
(ad AAB 

(b)AV[BAC] 

(c)A XORB 
(d)[AABIVLCAD] 

考虑 下 面 的 训练 样 例 集合 : 
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3.3 


3.4 





实例 分 类 a a2 
1 + T T 
2 + T T 
3 一 T F 
4 + F F 
5 - F T 
6 一 F T 


(a ITB TVA RAK F Bt BBA R 

(b) 请 计算 属性 a, 相对 这 些 训 练 样 例 的 信息 增益 。 

判断 以 下 命题 的 正 误 ， 如 果树 D2 是 从 树 D1 加 工 而 成 的 ,那么 D1 more _ general _ than 

D2。 假 定 D1 和 D2 是 表示 任意 布尔 函数 的 决策 树 , 而 且 当 ID3 能 把 D1 扩展 成 D2 时 ， 

则 D2 D1 加 工 而 成 的 。 如 果 正 确 ,给 出 证 明 ; 如 果 错 误 , 举 出 一 个 反例 ( more _ general 

_ than 在 第 2 章 中 定义 )。 

ID3 仅 寻 找 一 个 一 致 的 假设 ,而 候选 消除 算法 寻找 所 有 一 致 的 假设 。 考 虑 这 两 种 学 习 算 

法 间 的 对 应 关系 。 

(a) 假 定 给 定 EnjoySport 的 四 个 训练 样 例 , 画 出 ID3 学 习 的 决策 树 。 其 中 EnjoySport A 
标 概念 列 在 第 2 章 的 表 2-1 中 。 

(b) 学 习 到 的 决策 树 和 从 同样 的 样 例 使 用 变型 空间 算法 得 到 的 变型 空间 (参见 第 2 章 
图 2-3) 间 有 什么 关系 ? 树 等 价 于 变型 空间 的 一 个 成 员 吗 ? 

(c) 增 加 下 面 的 训练 样 例 , 计 算 新 的 决策 树 。 这 一 次 ,显示 出 增长 树 的 每 一 步 中 每 个 候选 
属性 的 信息 增益 。 


Sky Air-Temp Humidity Wind Water Forecast Enjoy-Sport® 





Sunny Warm Normal Weak Warm Same No 


(d) 假 定 我 们 希望 设计 一 个 学 习 器 ,让 它 搜索 决策 树 假设 空间 (类 似 ID3) 并 寻找 与 数据 
一 致 的 所 有 假设 (类 似 候选 消除 )。 简 单 地 说 ,我 们 希望 应 用 候选 消除 算法 搜索 决策 
树 假设 空间 。 写 出 经 过 表 2-1 的 第 一 个 训练 样 例 后 的 S$ 和 6 集合 。 注 意 ,5 必须 包 
含 与 数据 一 致 的 最 特殊 的 决策 树 ,而 6 必须 包含 最 一 般 的 。 说 明 过 到 第 二 个 训练 样 
例 时 S Al G 集合 是 如 何 被 精 化 的 (可 以 去 掉 描 述 相同 概念 而 语法 不 同 的 树 )。 在 把 
候选 消除 算法 应 用 到 决策 树 假设 空间 时 ,预计 会 碰 到 什么 样 的 困难 ? 
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第 4 章 ”人工 神经 网 络 


人 工 神 经 网 络 (Artificial Neural Networks, ANN) 提 供 了 一 种 普遍 而 且 实 用 的 方法 从 样 例 
中 学 习 值 为 实数 .离散 值 或 向 量 的 函数 。 像 反 向 传播 (BACKPROPAGATION) 这 样 的 算法 ,使 用 
梯度 下 降 来 调节 网 络 参数 以 最 佳 拟 合 由 输入 -输出 对 组 成 的 训练 集合 。ANN 学 习 对 于 训练 数 
据 中 的 错误 健壮 性 很 好 ,和 且 已 被 成 功 地 应 用 到 很 多 领域 ,例如 视觉 场景 分 析 (interpreting visual 
scenes) ,语音 识别 以 及 机 器 人 控制 等 。 


4.1 简介 


神经 网 络 学 习 方法 对 于 和 逼近 实数 值 ,离散 值 或 向 量 值 的 目标 函数 提供 了 一 种 健壮 性 很 强 
的 方法 。 对 于 某 些 类 型 的 问题 ,如 学 习 解 释 复杂 的 现实 世界 中 的 传感器 数据 ,人 工 神 经 网 络 是 
目前 知道 的 最 有 效 的 学 习 方法 。 例 如 ,本 章 要 描述 的 反 向 传播 算法 已 在 很 多 实际 的 问题 中 取 
得 了 惊人 的 成 功 , 比如 学 习 识别 手写 字符 ( LeCun et al. 1989) 、 学 习 识别 口语 (Lang et al. 
1990) 和 学 习 识 别人 脸 (Cottrell 1990), Rumelhart et al. (1994) 提 供 了 对 实际 应 用 的 调查 。 
生物 学 动机 

人 工 神 经 网 络 (ANN) 的 研究 在 一 定 程度 上 受到 了 生物 学 的 启发 ,因为 生物 的 学 习 系 统 是 
由 相互 连接 的 神经 元 (neuron) 组 成 的 异常 复杂 的 网 络 。 而 人 工 神经 网 络 与 此 大 体 相 似 , 它 是 
由 一 系列 简单 的 单元 相互 密集 连接 构成 的 ,其 中 每 一 个 单元 有 一 定数 量 的 实 值 输入 (可 能 是 其 
他 单元 的 输出 ) ,并 产生 单一 的 实数 值 输出 (可 能 成 为 其 他 很 多 单元 的 输入 ) 。 

为 了 加 深 对 这 种 类 比 的 认识 ,让 我 们 考虑 一 些 来 自生 物 学 的 事实 。 例 如 , 据 估计 人 类 的 大 
脑 是 由 大 约 104 个 神经 元 相互 连接 组 成 的 密集 网 络 ,平均 每 一 个 神经 元 与 其 他 10* 个 神经 元 
相连 。 神 经 元 的 活性 通常 被 通 向 其 他 神经 元 的 连接 激活 或 抑制 。 目 前 知道 的 最 快 的 神经 元 转 
换 时 间 是 在 10-:? 秒 级 别 一 一 与 计算 机 的 转换 时 间 10- 20 秒 相 比 慢 很 多 。 然 而 人 类 能 够 以 惊人 
的 速度 做 出 复杂 度 惊人 的 决策 。 例 如 ,你 要 通过 视觉 认 出 自己 的 母亲 大 约 需要 10” 秒 。 注 意 
在 这 10- ! 秒 的 间隔 内 ,被 激发 的 神经 元 序列 不 长 于 数 百 步 , 因 为 单个 神经 元 的 转换 速度 已 知 。 
这 个 事实 使 很 多 人 推测 ,生物 神经 系统 的 信息 处 理 能 力 一 定 得 益 于 对 分 布 在 大 量 神经 元 上 的 
信息 表示 的 高 度 并 行 处 理 。ANN 系统 的 一 个 动机 就 是 获得 这 种 基于 分 布 表 示 的 高 度 并 行 算 
法 。 大 多 数 的 ANN 软件 在 串 行 机 器 上 仿真 分 布 处 理 ,然而 更 快 版 本 的 算法 也 已 经 在 高 度 并 
行 机 和 特别 为 ANN 应 用 设计 的 专用 硬件 上 实现 了 。 

由 于 ANN 只 是 在 一 定 程度 上 受 生物 神经 系统 的 启发 ,所 以 ANN 并 未 模拟 生物 神经 系统 
中 的 很 多 复杂 特征 ,而 且 已 经 知道 ANN 的 很 多 特征 与 生物 系统 也 是 不 一 致 的 。 例 如 ,我 们 考 
虑 的 ANN ,每 个 单元 输出 单一 的 不 变 值 ,然而 生物 神经 元 输出 的 是 复杂 的 时 序 脉冲 。 

长 期 以 来 ,人 工 神经 网 络 领域 的 研究 者 分 为 两 个 团体 。 一 个 团体 的 目标 是 使 用 ANN . 研 
究 和 模拟 生物 学 习 过 程 。 另 一 个 团体 的 目标 是 获得 高 效 的 机 器 学 习 算 法 ,不 管 这 种 算法 是 否 
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反映 了 生物 过 程 。 在 本 书 中 ,我 们 的 兴趣 与 后 一 团体 一 致 ,所 以 我 们 不 会 再 把 注意 力 用 在 生物 
模型 上 。 若 要 获得 关于 使 用 ANN 模拟 生物 系统 的 更 多 信息 ,请 参考 Churchland & Sejnowski 
(1992) .Zornetzer et al.(1994) 和 Gabriel & Moore(1990) 。 


4.2 神经 网 络 表示 


Pomerleau(1993) 的 ALVINN 系统 是 ANN 学 习 的 一 个 典型 实例 ,这 个 系统 使 用 一 个 学 习 到 的 
ANN 以 正常 的 速度 在 高 速 公路 上 驾驶 汽车 。ANN 的 输入 是 一 个 30 x 32 像素 的 网 格 , 像 素 的 亮度 
来 自 一 个 安装 在 车 辆 上 的 前 向 摄像 机 。ANN 的 输出 是 车 辆 行进 的 方向 。 这 个 ANN 通过 模仿 人 类 
驾驶 时 的 操纵 命令 进行 训练 ,训练 过 程 大 约 5 分 钟 。ALVINN 用 学 习 到 的 网 络 在 高 速 公路 上 以 70 
英里 时 速成 功 地 驾驶 了 90 英里 (在 分 行 公路 的 左 车 道行 驶 ,同时 有 其 他 车 辆 )。 

图 4-1 画 出 了 ALVINN 系统 的 一 个 版 本 中 使 用 过 的 神经 网 络 表示 ,这 也 是 很 多 ANN 系 











ALVINN 系统 使 用 反 向 传播 算法 来 学 习 驾 驶 汽车 (上 图 ), 它 的 最 高 时 速达 到 每 小 时 70 英里。 左 图 显示 了 来 自 车 前 报 
像 机 的 图 像 是 如 何 被 映射 到 960 个 神经 网 络 输入 的 ,这 些 输 入 又 前 馈 到 4 个 隐藏 单元 ,再 连接 到 30 个 输出 单元 。 网 
络 输出 编码 了 推荐 的 驾驶 方向 。 右 图 显示 了 网 络 中 一 个 隐藏 单元 的 权 值 。 进 入 这 个 隐藏 单元 的 30 x 32 个 权 值 显示 
在 大 的 矩阵 中 ,白色 的 方 框 表示 正 权 值 而 黑色 的 方 框 表 示 负 权 值 。 从 这 个 隐藏 单元 到 30 个 输出 单元 的 权 值 被 画 在 
这 个 大 矩阵 上 方 的 较 小 矩形 中 。 从 这 些 输出 权 值 可 以 看 出 ,激活 这 个 隐藏 单元 会 促使 车 向 左 转 。 


4-1 学 习 驾 驶 汽车 的 神经 网 络 
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统 的 典型 表示 方式 。 神 经 网 络 显示 在 图 的 左边 ,输入 的 摄像 机 图 像 在 它 的 下 边 。 网 络 图 中 每 
个 结 点 对 应 一 个 网 络 单元 (unit) 的 输出 ,而 从 下 方 进入 结 点 的 实 线 为 其 输入 。 可 以 看 到 ,共有 
四 个 单元 直接 从 图 像 接收 所 有 的 30 x 32 个 像素 。 这 四 个 单元 被 称 为 “隐藏 ”单元 ,因为 它们 的 
输出 仅 在 网 络 内 部 ,不 是 整个 网 络 输出 的 一 部 分 。 每 个 隐藏 单元 根据 960 个 输入 的 加 权 和 计 
算得 到 单一 的 实数 值 输出 。 然 后 这 四 个 隐藏 单元 的 输出 被 用 作 第 二 层 30 个 “输出 单元 ”的 输 
入 。 每 个 输出 单元 对 应 一 个 特定 的 驾驶 方向 ,这 些 单元 的 输出 决定 哪 一 个 驾驶 方向 是 被 最 强 
烈 推 荐 的 。 

图 4-1 中 的 右 侧 部 分 描绘 的 是 一 些 学 习 得 到 的 权 值 ,它们 与 这 个 ANN 的 四 个 隐藏 单元 之 
一 相 联系 。 下 面 的 黑白 方 格 大 矩阵 描述 的 是 从 30 x 32 像素 输入 到 这 个 隐藏 单元 的 权 值 。 这 
里 , 白 方 格 表示 正 权 值 , 黑 方 格 表示 负 权 值 , 方 格 的 大 小 表示 权 的 数量 。 大 矩阵 正 上 方 的 较 小 
的 矩形 表示 从 这 个 隐藏 单元 到 30 个 输出 单元 的 权 。 

ALVINN 的 网 络 结构 是 很 多 ANN 中 的 典型 结构 。 所 有 单元 分 层 互 连 形成 了 一 个 有 向 无 
环 图 。 通 常 ,ANN 图 的 结构 可 以 有 很 多 种 类 型 一 一 无 环 的 或 有 环 的 ,有 向 的 或 无 向 的 。 本 章 
集中 讨论 以 反 向 传播 算法 为 基础 的 最 常见 和 最 实用 的 ANN 方法 。 反 向 传播 算法 假定 网 络 是 
一 个 固定 结构 ,对 应 一 个 有 向 图 ,可 能 包含 环 。ANN 学 习 就 是 为 图 中 的 每 一 条 边 选 取 权 值 。 
尽管 某 种 类 型 的 循环 是 允许 的 ,大 多 数 的 实际 应 用 都 采用 无 环 的 前 馈 网 络 , 与 ALVINN 使 用 
的 网 络 结构 相似 。 


4.3 ”适合 神经 网 络 学 习 的 问题 


ANN 学 习 非 常 适合 于 这 样 的 问题 : 训练 集合 为 含有 噪声 的 复杂 传感器 数据 ,例如 来 自 摄 
像 机 和 麦克 风 的 数据 。 它 也 适用 于 需要 较 多 符号 表示 的 问题 ,例如 第 3 章 讨 论 的 决策 树 学 习 
任务 。 这 种 情况 下 ANN 和 决策 树 学 习 经 常 产 生 精 度 大 体 相当 的 结果 。 可 参见 Shavlik et al. 
(1991) 和 Weiss,S. , & Kapouleas, I. ( 1989) 中 关于 决策 树 和 ANN 学 习 的 实验 比较 。 反 向 传播 
算法 是 最 常用 的 ANN 学 习 技术 。 它 适合 具有 以 下 特征 的 问题 : 
o 实例 是 用 很 多 "属性 - 值 ? 对 表示 的 : 要 学 习 的 目标 函数 是 定义 在 可 以 用 向 量 描述 的 实 
例 之 上 的 ,向 量 由 预先 定义 的 特征 组 成 ,例如 ALVINN 例子 中 的 像素 值 。 这 些 输入 属 
性 之 间 可 以 高 度 相关 ,也 可 以 相互 独立 。 输 入 值 可 以 是 任何 实数 。 
© 目标 函数 的 输出 可 能 是 离散 值 \ 实 数值 或 者 由 若干 实数 属性 或 离散 属性 组 成 的 向 量 : 例 
如 ,在 ALVINN 系统 中 输出 的 是 30 个 属性 的 向 量 ,每 一 个 分 量 对 应 一 个 建议 的 驾驶 方 
向 。 每 个 输出 值 是 0 和 1 之 间 的 某 个 实数 ,对 应 于 在 预测 相应 驾驶 方向 时 的 置信 度 
(confidence)。 我 们 也 可 以 训练 一 个 单一 网 络 , 同 时 输出 行驶 方向 和 建议 的 加 速度 ,这 
只 要 简单 地 把 编码 这 两 种 输出 预测 的 向 量 连 接 在 一 起 就 可 以 了 。 
© 训练 数据 可 能 包含 错误 : ANN 学 习 算 法 对 于 训练 数据 中 的 错误 有 非常 好 的 健壮 性 。 
e 可 容忍 长 时 间 的 训练 :网 络 训练 算法 通常 比 像 决策 树 学 习 这 样 的 算法 需要 更 长 的 训练 
时 间 。 训 练 时 间 可 能 从 几 秒 钟 到 几 小 时 ,这 要 看 网 络 中 权 值 的 数量 、 要 考虑 的 训练 实例 
的 数量 以 及 不 同学 习 算 法 参数 的 设置 等 因素 。 
o 可 能 需要 快速 求 出 目标 函数 值 ， 尽 管 ANN 的 学 习 时 间 相对 较 长 ,但 对 学 习 到 的 网 络 求 
值 以 便 把 网 络 应 用 到 后 续 的 实例 通常 是 非常 快速 的 。 例 如 ,ALVINN 在 车 辆 向 前 行驶 
时 ,每 秒 应 用 它 的 神经 网 络 若 干 次 , 以 不 断 地 更 新 驾驶 方向 。 
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o 人 类 能 否 理 解 学 到 的 目标 函数 是 不 重要 的 :神经 网 络 方法 学 习 到 的 权 值 经 常 是 人 类 难 
以 解释 的 。 学 到 的 神经 网 络 比 学 到 的 规则 难以 传达 给 人 类 。 

这 一 章 的 其 余部 分 是 这 样 组 织 的 : 我 们 先 讨 论 训 练 单个 单元 的 学 习 算法 ,同时 介绍 组 成 
神经 网 络 的 几 种 主要 单元 ,包括 感知 器 (perceptron) 、 线 性 单元 (linear unit) 和 sigmoid 单元 
(sigmoid unit)。 然 后 给 出 训练 这 些 单元 组 成 的 多 层 网 络 的 反 向 传播 算法 ,并 考虑 几 个 一 般 性 
的 问题 ,比如 ANN 的 表征 能 力 、 假 设 空间 搜索 的 本 质 特征 .过 度 拟 合 问题 以 及 反 向 传播 算法 
的 变 体 。 本 章 也 给 出 了 一 个 应 用 反 向 传播 算法 识别 人 脸 的 详细 例子 ,指导 读者 如 何 取得 这 个 
例子 的 数据 和 代码 并 进一步 实验 。 


4.4 感知 器 


一 种 类 型 的 ANN 系统 是 以 被 称 为 感知 器 (perceptron) 的 单元 为 基础 的 ,如 图 4-2 所 示 。 
感知 器 以 一 个 实数 值 向 量 作为 输入 ,计算 这 些 输入 的 线性 组 合 ,然后 如 果 结 果 大 于 某 个 阔 值 ， 
就 输出 1, 否则 输出 - 1。 更 精确 地 ,如 果 输 入 为 x 到 x, ,那么 感知 器 计算 的 输出 为 : 


1 if Wot WIXI+ Waza + + wx, >O 


oa 


1 otherwise 


其 中 每 一 个 w; 是 一 个 实数 常量 ,或 叫做 权 值 (weight) ,用 来 决定 输入 x; 对 感知 器 输出 的 
贡献 率 。 请 注意 ,数量 ( - wo) 是 一 个 阐 值 , 它 是 为 了 使 感知 器 输出 1, 输入 的 加 权 和 wy x, + 
WiXa t + WAX, 必须 超过 的 阅 值 。 





a 
o= 1 if Yow; xj? 
-I otherwise 


Xn 


图 4-2 感知 器 


为 了 简化 表示 ,我 们 假想 有 一 个 附加 的 常量 输入 xo = 1, 那 么 我 们 就 可 以 把 上 边 的 不 等 式 
BAS wx; > 0, 或 以 向 量 形式 写 为 wx > 0。 为 了 简短 起 见 , 我 们 有 时 会 把 感知 器 函数 写 
为 : 

0o(%)=sgn(w-x) 
其 中 : 
1 if yY >0 
sgn( y) = | -1 otherwise 
学 习 一 个 感知 器 意味 着 选择 权 wo, ..., w, 的 值 。 所 以 感知 器 学 习 要 考虑 的 候选 假设 


空间 甩 就 是 所 有 可 能 的 实数 值 权 向 量 的 集合 。 
H={wlwEK"*} 


4.4.1 感知 器 的 表征 能 力 
我 们 可 以 把 感知 器 看 作 是 n 维 实例 空间 ( 即 点 空间 ) 中 的 超 平 面 决策 面 。 对 于 超 平面 一 
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侧 的 实例 ， 感知 器 输出 1, 对 于 另 一 侧 的 实例 输出 - 1, 如 图 4-3 所 示 。 这 个 决策 超 平面 方程 是 
wie =0。 当 然 , 某 些 正 反 样 例 集合 不 可 能 被 任 一 超 平面 分 割 。 那 些 可 以 被 分 割 的 称 为 线性 
可 分 (linearly separable) 样 例 集合 

单独 的 感知 器 可 以 用 来 表示 很 多 布尔 函数 。 例如 ,假定 用 1( 真 ) 和 -1( 假 ) 表 示 布 尔 值 ， 
那么 使 用 一 个 有 两 输入 的 感知 器 来 实现 与 函数 (AND) 的 一 种 方法 是 设置 权 wo= -0.8 并 且 
w1 = ww2 =0.5。 如 果 用 这 个 感知 器 来 表示 或 函数 (OR), 那 么 只 要 改变 它 的 阐 值 wo = -0.3。 
事实 上 ,AND 和 OR 可 被 看 作 m-of-n 函数 的 特例 : 也 就 是 要 使 函数 输出 为 真 ,那么 感知 器 的 

个 输入 中 至 少 m 个 必须 为 真 。OR 函数 对 应 于 m = 1, AND 函数 对 应 于 m= no 任意 m- 

of-n 函数 可 以 很 容易 地 用 感知 器 表示 ,只 要 设置 所 有 输入 的 权 为 同样 的 值 (如 0.5), 然 后 据 此 
恰当 地 设置 阔 值 。 

感知 器 可 以 表示 所 有 的 原子 布尔 函数 (primitive boolean function): 与 或 .与 非 (NAND) 
和 或 非 (NOR)。 然 而 遗憾 的 是 ,一 些 布尔 函数 无 法 用 单一 的 感知 器 表示 , PA A FE BR PR 
(XOR), 它 当 且 仅 当 xix x 时 输出 为 1。 请 注意 图 4-3b 中 线性 不 可 分 的 训练 样本 集 对 应 于 
异 或 函数 。 





b) 


a) 一 组 训练 样 例 和 一 个 能 正确 分 类 这 些 样 例 的 感知 器 决策 面 。b)- -组 非 线 性 可 分 的 训练 样 例 ( 也 就 是 不 能 用 任 
一 直线 正确 分 类 的 样 例 )。x! 和 xz 是 感知 器 的 输入 。“ + "表示 正 例 ，- “表示 反例 


图 4-3 ”两 输入 感知 器 表示 的 决策 面 


感知 器 表示 与 或 .与 非 、 或 非 的 能 力 是 很 重要 的 ,因为 所 有 的 布尔 函数 都 可 表示 为 基于 这 
些 原 子 函 数 的 互 连 单元 的 某 个 网 络 。 事 实 上 , 仅 用 两 层 深度 的 感知 器 网 络 就 可 以 表示 所 有 的 
布尔 函数 ,在 这 些 网 络 中 输入 被 送 到 多 个 单元 ,这 些 单元 的 输出 被 输入 到 第 二 级 ,也 是 最 后 一 
级 。 一 种 方法 是 用 析 取 范式 (disjunctive normal form)( 也 就 是 对 输入 和 它们 的 否定 的 先进 行 
合 取 , 再 对 这 组 合 取 式 进行 析 取 ) 来 表示 布尔 函数 。 注 意 ,要 把 一 个 AND 感知 器 的 输入 求 反 ， 

只 要 简单 地 改变 相应 输入 权 的 符号 。 

因为 阐 值 单元 的 网 络 可 以 表示 大 量 的 函数 ,而 单独 的 单元 不 能 做 到 这 一 点 ,所 以 通常 我 们 

感 兴趣 的 是 学 习 阔 值 单元 组 成 的 多 层 网 络 。 


4.4.2 感知 器 训练 法 则 
虽然 我 们 的 目的 是 学 习 由 多 个 单元 互 连 的 网 络 , 但 我 们 还 是 要 从 如 何 学 习 单 个 感知 器 的 


权 值 开始 。 准 确 地 说 ,这 里 的 学 习 任 务 是 决定 一 个 权 向 量 , 它 可 以 使 感知 器 对 于 给 定 的 训练 样 


例 输出 正确 的 1 或 -1。 
已 经 知道 有 几 种 解决 这 个 学 习 任务 的 算法 。 这 里 我 们 考虑 两 种 : 感知 器 法 则 和 delta 法 
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则 (delta rule)( 是 第 1 EPARKI RA RNIT LMS 的 一 个 变 体 )。 这 两 种 算法 
保证 收敛 到 可 接受 的 假设 ,在 不 同 的 条 件 下 收敛 到 的 假设 略 有 不 同 。 这 两 种 方法 对 于 ANN 
是 很 重要 的 ,因为 它们 提供 了 学 习 多 个 单元 构成 的 网 络 的 基础 。 

为 得 到 可 接受 的 权 向 量 , 一 种 办 法 是 从 随机 的 权 值 开始 ,然后 反复 地 应 用 这 个 感知 器 到 每 
个 训练 样 例 , 只 要 它 误 分 类 样 例 就 修改 感知 器 的 权 值 。 重 复 这 个 过 程 ,直到 感知 器 正确 分 类 所 
有 的 训练 样 例 。 每 一 步 根据 感知 器 训练 法 则 (perceptron training rule) 来 修改 权 值 ,也 就 是 修 
改 与 输入 x; 对 应 的 权 w;, 法 则 如 下 : 

w;—w;+ Aw; 

其 中 ， 

Aw, = 7(t— 0) x; 

这 里 ; 是 当前 训练 样 例 的 目标 输出 ,。 是 感知 器 的 输出 ,7 是 一 个 正 的 常数 称 为 学 习 速 率 
(learning rate) 。 学 习 速 率 的 作用 是 缓和 每 一 步调 整 权 的 程度 。 它 通常 被 设 为 一 个 小 的 数值 
(例如 0.1) ,而 且 有 时 会 使 其 随 着 权 调整 次 数 的 增加 而 衰减 。 

为 什么 这 个 更 新 法 则 会 成 功 收敛 到 正确 的 权 值 呢 ? 为 了 得 到 直观 的 感觉 ,考虑 一 些 特例 。 
假定 训练 样本 已 被 感知 器 正确 分 类 。 这 时 ,(! - o) 是 0, 这 使 Aw; 为 0, 所 以 没有 权 值 被 修改 。 
而 如 果 当 目标 输出 是 + 1 时 ,感知 器 输出 一 个 - 1, 这 种 情况 下 为 使 感知 器 输出 一 个 + 1 而 不 是 
- 1, 权 值 必 须 被 修改 以 增 大 w .x 的 值 。 例 如 ,如 果 x; > 0, 那 么 增 大 w; 会 使 感知 器 更 接近 正 
确 分 类 的 这 个 实例 。 注 意 , 这 种 情况 下 训练 法 则 会 增长 w;, 因 为 (: - o。)、w Ma; 都 是 正 的 。 
例如 ,如 果 x; =0.8,7=0.1,1=1, 并 且 o= - 1, 那么 权 更 新 就 是 Aw; = p(t -0)x;=0.1(1- 
(-1))0.8=0.16。 另 一 方面 ,如 果 上 = -1 而 o=1, 那 么 和 正 的 x; 关联 的 权 值 会 被 减 小 而 不 
是 增 大 。 

事实 上 可 以 证 明 ,在 有 限 次 地 使 用 感知 器 训练 法 则 后 ,上 面 的 训练 过 程 会 收敛 到 一 个 能 正 
确 分 类 所 有 训练 样 例 的 权 向 量 , 前 提 是 训练 样 例 线性 可 分 ,并 且 使 用 了 充分 小 的 7 了 (参见 
Minskey & Papert 1969)。 如 果 数 据 不 是 线性 可 分 的 ,那么 不 能 保证 训练 过 程 收 化。 


4.4.3 梯度 下 降 和 delta 法 则 


尽管 当 训练 样 例 线性 可 分 时 ,感知 器 法 则 可 以 成 功 地 找到 一 个 权 向 量 ,但 如 果 样 例 不 是 线 
性 可 分 时 它 将 不 能 收敛 。 因 此 ,人 们 设计 了 另 一 个 训练 法 则 来 克服 这 个 不 足 , 称 为 delta 法 则 
(delta rule)。 如 果 训 练 样本 不 是 线性 可 分 的 ,那么 delta 法 则 会 收敛 到 目标 概念 的 最 佳 近似 。 

delta 法 则 的 关键 思想 是 使 用 梯度 下 降 (gradient descent) 来 搜索 可 能 的 权 向 量 的 假设 空 
间 , 以 找到 最 佳 拟 合 训练 样 例 的 权 向 量 。 这 个 法 则 很 重要 ,因为 它 为 反 向 传播 算法 提供 了 基 
础 ,而 反 向 传播 算法 能 够 学 习 多 个 单元 的 互连网 络 。 这 个 法 则 重要 性 的 另 一 个 原因 是 ,对 于 包 
含 多 种 不 同类 型 的 连续 参数 化 假设 的 假设 空间 ,梯度 下 降 是 必须 遍历 这 样 的 假设 空间 的 所 有 
学 习 算 法 的 基础 。 

最 好 把 delta 训练 法 则 理解 为 训练 一 个 无 阔 值 的 感知 器 ,也 就 是 一 个 线性 单元 (linear u- 
nit) , 它 的 输出 。 如 下 : 


> 


ox) ames (4.1) 
于 是 ,一 个 线性 单元 对 应 于 感知 器 的 第 一 阶段 a BL. 
为 了 推导 线性 单元 的 权 值 学习 法 则 , 先 指定 一 个 度量 标准 来 衡量 假设 ( 权 向 量 ) 相 对 于 训 
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练 样 例 的 训练 误差 (training error). 尽管 有 很 多 方法 定义 这 个 误差 ,一 个 常用 的 特别 方便 的 度 
量 标准 为 : 
E(w) = 5 >) (tg - 04)? (4.2) 
d€ D 


其 中 , D 是 训练 样 例 集合 , 是 训练 样 例 d 的 目标 输出 ,ou 是 线性 单元 对 训练 样 例 d 的 输 
出 。 在 这 个 定义 中 , E(w) 是 目标 输出 ts 和 线性 单元 输出 ou 的 差异 的 平方 在 所 有 的 训练 样 例 
上 求 和 后 的 一 半 。 这 里 我 们 把 E 定 为 w 的 函数 ,是 因为 线性 单元 的 输出 o 依赖 于 这 个 权 向 
量 。 当 然 E 也 依赖 于 特定 的 训练 样 例 集合 ,但 我 们 认为 它们 在 训练 期 间 是 固定 的 ,所 以 不 必 
麻烦 地 把 E 写 为 训练 样 例 的 函数 。 第 6 章 给 出 了 选择 这 种 E 定义 的 一 种 贝 叶 斯 论证 。 确 切 
地 讲 , 在 那里 我 们 指出 了 在 一 定 条 件 下 ,对 于 给 定 的 训练 数据 使 E 最 小 化 的 假设 也 就 是 五 中 
最 可 能 的 假设 。 

1. 可 视 化 假设 空间 

为 了 理解 梯度 下 降 算法 ,可 视 化 地 表示 包含 所 有 可 能 的 权 向 量 和 相关 联 的 已 值 的 整个 假 
设 空间 是 有 帮助 的 ,如 图 4-4 所 示 。 这 里 ,坐标 轴 wo、w1 表示 一 个 简单 的 线性 单元 中 两 个 权 
可 能 的 取 值 。 纵 轴 指 出 相对 于 某 固定 的 训练 样 例 的 误差 E。 因 此 图 中 的 误差 曲面 概括 了 假 
设 空间 中 每 一 个 权 向 量 的 期 望 度 (desirability) (我 们 期 望 得 到 一 个 具有 最 小 误差 的 假设 )。 如 
果 用 来 定义 E 的 方法 已 知 ,那么 对 于 线性 单元 ,这 个 误差 曲面 必然 是 具有 单一 全 局 最 小 值 的 
抛物 面 。 当 然 ,具体 的 抛物 面 形 状 依赖 于 具体 的 训练 样 例 集合 。 


Q 


Q 
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对 于 有 两 个 权 值 的 线性 单元 ,假设 空间 HRE wo w 平面 。 纵 轴 表 示 与 固定 的 训练 样 例 集合 相对 应 的 权 向 量 
假设 的 误差 。 稍 头 显示 了 该 点 梯度 的 相反 方向 ,指出 了 在 wow, 平面 中 沿 误差 曲面 最 陡峭 下 降 的 方向 


图 4-4 不 同 假设 的 误差 
梯度 下 降 搜索 确定 一 个 使 最 小 化 的 权 向 量 是 从 一 个 任意 的 初始 权 向 量 开始 ,然后 以 很 
小 的 步伐 反复 修改 这 个 向 量 。 每 一 步 都 沿 误 差 曲面 产生 最 陡峭 下 降 的 方向 修改 权 向 量 ( 参 见 
图 4-4) ,继续 这 个 过 程 直 到 得 到 全 局 的 最 小 误差 点 。 
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2. 梯 度 下 降 法 则 的 推导 
我 们 怎样 才能 计算 出 沿 误差 曲面 最 陡峭 下 降 的 方向 呢 ? 可 以 通过 计算 E 相对 向 量 w 的 
每 个 分 量 的 导数 来 得 到 这 个 方向 。 这 个 向 量 导 数 被 称 为 ET w 的 梯度 (gradient) , 记 作 
VECw )o 
9E E OE 


Iwo’ Pw,’ "Ow, 





VE(w) =| (4.3) 


注意 ,VE(w ) 本 身 是 一 个 向 量 , 它 的 成 员 是 E 对 每 个 w; 的 偏 导数 。 当 梯度 被 解释 为 权 
空间 的 一 个 向 量 时 , 它 确 定 了 使 已 最 陡峭 上 升 的 方向 。 所 以 这 个 向 量 的 反方 向 给 出 了 最 陡峭 
下 降 的 方向 。 例 如 ,图 4-4 中 的 箭头 显示 了 wow, 平面 的 一 个 特定 点 的 负 梯 度 -了 E(w )。 

既然 梯度 确定 了 E 最 陡峭 上 升 的 方向 ,那么 梯度 下 降 的 训练 法 则 是 : 

ww +Aw 

其 中 : 

Aw = - 7 VE(w) (4.4) 

这 里 7 是 一 个 正 的 常数 叫做 学 习 速 率 , 它 决定 梯度 下 降 搜 索 中 的 步 长 。 公 式 中 的 负 号 是 
因为 我 们 想 让 权 向 量 向 已 下 降 的 方向 移动 。 这 个 训练 法 则 也 可 以 写成 它 的 分 量 形式 : 


w; w; + Aw; 
sof, 


(4.5) 





这 样 很 清楚 ， 最 陡峭 的 下 降 可 以 按照 比例 了 改变 也 中 的 每 一 分 量 w; 来 实现 。 


要 形成 一 个 根据 公式 (4.5) 迁 代 更 新 权 的 实用 算法 ， 我 们 需要 一 个 高 效 的 方法 在 每 一 步 都 
计算 这 个 梯度 。 幸 运 的 是 计算 过 程 并 不 困难 。 我 们 可 以 从 公式 (4.2) 中 计算 E 的 微分 ,从 而 


得 到 组 成 这 个 梯度 向 量 的 分 量 了 上 。 过 程 如 下 : 





3E 9 Ix 9 

Iw; Iw; 2 D ga, = 04)? 

BRR i “(tg = 04) 

= D (te = oa) 5 (ta w > Ha) 

one Data — od)(- xia) (4.6) 
其 中 ,xia 表示 训练 样 例 d 的 一 个 输入 分 量 x;。 SERA T— 个 公式 ,能 够 用 线性 单元 

的 输入 xia ,输出 0g 以 及 训练 样 例 的 目标 值 i BRST -。 把 公式 (4.6) 代 人 公式 (4.5) 便 得 到 

了 梯度 下 降 权 值 更 新 法 则 。 

















Aw; = 7% (ta — 04) Xid (4.7) 
dE D 


总 而 言 之 ,训练 线性 单元 的 梯度 下 降 算法 如 下 : 选取 一 个 初始 的 随机 权 向 量 ; 应 用 线性 单 
元 到 所 有 的 训练 样 例 , 然 后 根据 公式 (4.7) 计 算 每 个 权 值 的 Aw;; 通 过 加 上 Aw; 来 更 新 每 个 权 
值 ,然后 重复 这 个 过 程 。 这 个 算法 被 归纳 在 表 4-1 中 。 因 为 误差 曲面 仅 包含 一 个 全 局 的 最 小 
值 ,所 以 无 论 训练 样 例 是 否 线性 可 分 ,这 个 算法 会 收敛 到 具有 最 小 误差 的 权 向 量 , 条 件 是 必须 
使 用 一 个 足够 小 的 学 习 速 率 7。 如 果 7 太 大 ,梯度 下 降 搜索 就 有 越过 误差 曲面 最 小 值 而 不 是 
停留 在 那 一 点 的 危险 。 因 此 ,对 此 算法 的 一 种 常用 的 改进 方法 是 随 着 梯度 下 降 步 数 的 增加 逐 
渐 减 小 7 的 值 。 

表 4-1 训练 线性 单元 的 梯度 下 降 算法 
GRADIENT-DESCENT( training _ examples, 9) 
training _ examples 中 每 一 个 训练 样 例 形式 为 序 偶 (*，!) ,其 中 x 是 输入 值 向 量 ,: 是 目标 输出 值 ,7 是 学 习 
速率 (例如 0.05) 
@ 初始 化 每 个 w 为 某 个 小 的 随机 值 
@ 过 到 终止 条 件 之 前 ,做 以 下 操作 ;: 
o 初始 化 每 个 人 w; HO 
O 对 于 训练 样 例 training _examples 中 的 每 个 (x ，/) ,做 : 
@ 把 实例 x 输入 到 此 单元 ,计算 输出 o 
@ 对 于 线性 单元 的 每 个 权 w, i 
Aw;Aw;+ y(t- 0) x; (4.8) 
@ 对 于 线性 单元 的 每 个 权 w. i 
ww, + Aw; (4.9) 


注 : RRP FM ME RA 4.9) ,并 把 公式 (4.8) 替 换 为 wiw + yl- 0) x50 

3. 梯 度 下 降 的 随机 近似 

梯度 下 降 是 一 种 重要 的 通用 学 习 范 型 。 它 是 搜索 庞大 假设 空间 或 无 限 假 设 空间 的 一 种 策 
略 , 它 可 应 用 于 满足 以 下 条 件 的 任何 情况 : (1) 假 设 空间 包含 连续 参数 化 的 假设 (例如 ,一 个 线 
性 单元 的 权 值 ); (2) 误 差 对 于 这 些 假设 参数 可 微 。 应 用 梯度 下 降 的 主要 实践 问题 是 : (1) 有 时 
收敛 过 程 可 能 非常 慢 ( 它 可 能 需要 数 千 步 的 梯度 下 降 ); (2) 如 果 在 误差 曲面 上 有 多 个 局 部 极 小 
值 ,那么 不 能 保证 这 个 过 程 会 找到 全 局 最 小 值 。 

缓解 这 些 困 难 的 一 个 常见 的 梯度 下 降 变 体 被 称 为 增 量 梯度 下 降 (incremental gradient de- 
scent) 或 随机 梯度 下 降 (stochastic gradient descent) 。 鉴 于 公式 (4.7) 给 出 的 梯度 下 降 训 练 法 则 
在 对 D 中 的 所 有 训练 样 例 求 和 后 计算 权 值 更 新 ,随机 梯度 下 降 的 思想 是 根据 每 个 单独 样 例 的 
误差 增 量 计算 权 值 更 新 ,得 到 近似 的 梯度 下 降 搜 索 。 修 改 后 的 训练 法 则 与 公式 (4.7) 相 似 ,只 
是 在 迭代 计算 每 个 训练 样 例 时 根据 下 面 的 公式 来 更 新 权 值 : 

Aw; = y(t - 0) x; (4.10) 

其 中 ,上 oo 和 x; 分 别 是 目标 值 单元 输出 和 第 i 个 训练 样 例 的 输入 。 要 修改 表 4-1 的 梯 
度 下 降 算 法 ,只 要 简单 地 删除 式 (4.9) 并 把 式 (4.8) 替 换 为 wiwi + gli- 0) 4, 就 可 以 了 。 
随机 梯度 下 降 可 被 看 作为 每 个 单独 的 训练 样 例 d 定义 不 同 的 误差 函数 Ea( ): 
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Baw) = (ta - 04)? (4.11) 


其 中 , tg Flog 是 训练 样 例 d H ERA BEL BB BEF ER RE 
例 集 D 的 每 个 样 例 d ,在 每 次 迭代 过 程 中 按照 关于 Es(w ) 的 梯度 来 改变 权 值 。 在 迭代 所 有 训 
练 样 例 时 ,这 些 权 值 更 新 的 序列 给 出 了 对 于 原来 的 误差 函数 E(w ) 的 梯度 下 降 的 一 个 合理 近 
似 。 通 过 使 7( 梯 度 下降 的 步 长 ) 的 值 足够 小 ,可 以 使 随机 梯度 下 降 以 任意 程度 接近 于 真实 梯 
度 下 降 。 标 准 的 梯度 下 降 和 随机 的 梯度 下 降 之 间 的 关键 区 别 是 : 

© 标准 的 梯度 下 降 是 在 权 值 更 新 前 对 所 有 样 例 汇 总 误差 ,而 随机 梯度 下 降 的 权 值 是 通过 

考查 每 个 训练 实例 来 更 新 的 。 

o 在 标准 的 梯度 下 降 中 , 权 值 更 新 的 每 一 步 对 多 个 样 例 求 和 ,这 需要 更 多 的 计算 。 另 一 方 

面 ,因为 使 用 真正 的 梯度 ,标准 的 梯度 下 降 对 于 每 一 次 权 值 更 新 经 常 使 用 比 随机 梯度 下 
降 大 的 步 长 。 

© 如 果 E(w ) 有 多 个 局 部 极 小 值 ,随机 的 梯度 下 降 有 时 可 能 避免 陷 人 这 些 局 部 极 小 值 中 ， 

因为 它 使 用 不 同 的 VEs(w ) 而 不 是 VE(w ) 来 引导 搜索 。 

在 实践 中 ,无 论 是 随机 的 还 是 标准 的 梯度 下 降 方法 都 被 广泛 应 用 。 

公式 (4.10) 中 的 训练 法 则 被 称 为 增 量 法 则 (delta rule) ,或 叫 LMS 法 则 (least-mean -square 
最 小 均 方 ) Adaline 法 则 或 Windrow-Hoff 法 则 (以 它 的 发 明 者 命名 )。 在 第 1 章 中 描述 了 它 在 
学 习 博 弈 问题 的 评估 函数 中 的 应 用 ,当时 我 们 称 它 为 LMS 权 值 更 新 法 则 。 注 意 ,公式 (4.10) 
的 增 量 法 则 与 第 4.4.2 节 的 感知 器 训练 法 则 相似 。 两 个 看 起 来 完全 一 致 的 表达 式 事实 上 是 不 
同 的 ,因为 在 增 量 法 则 中 。 是 指 线性 单元 的 输出 o(z ) = wx, 而 对 于 感知 器 法 则 ,o 是 指 阅 值 
输出 o(x) = sgn(z xz)。 

尽管 我 们 给 出 的 增 量 法 则 可 学 习 非 立 值 线性 单元 的 权 , 但 它 也 可 以 方便 地 用 来 训练 有 阅 
值 的 感知 器 单元 。 假 定 。= wen 是 上 面 的 非 阐 值 线性 单元 的 输出 ,并 目 o = sgn(w'x) 是 。o 
被 闵 值 化 的 结果 ,与 在 感知 器 中 一 样 。 现 在 如 果 我 们 希望 为 o 训练 一 个 感知 器 使 其 拟 合 目标 
值 为 + 1 的 训练 样 例 ,可 以 使 用 与 训练 o 一样 的 目标 值 和 训练 样 例 , 不 要 使 用 增 量 法 则 。 很 明 
显 ,如 果 非 阔 值 输出 。 能 够 被 训练 到 完美 拟 合 这 些 值 ,那么 阔 值 输出 o 也 会 拟 合 它们 (因为 
sgn(1) = 1, sgn( ~ 1) = -1)。 即 使 不 能 完美 地 拟 合 目标 值 ,只 蓝 线 性 单元 的 输出 具有 正确 的 
RE ABER o' 值 就 会 正确 地 拟 合 目标 值 + 1。 注意 ,由 于 这 个 过 程 会 得 到 使 线性 单元 输出 
的 误差 最 小 化 的 权 值 ,这 些 权 值 不 能 保证 也 使 有 阔 值 输出 o' 的 误 分 类 样 例 数 最 小 化 。 


4.4.4 小 结 


我 们 已 经 研究 了 迭代 学 习 感 知 器 权 值 的 两 个 相似 的 算法 。 这 两 个 算法 间 的 关键 差异 是 感 
知 器 训练 法 则 根据 阅 值 化 (thresholded) 的 感知 器 输出 的 误差 更 新 权 值 ,然而 增 量 法 则 根据 输 
人 的 非 阐 值 化 (unthresholded) 线 性 组 合 的 误差 来 更 新 权 。 

这 两 个 训练 法 则 间 的 差异 反映 在 不 同 的 收敛 特性 上 。 感 知 器 训练 法 则 经 过 有 限 次 的 迭代 
收敛 到 一 个 能 理想 分 类 训练 数据 的 假设 ,但 条 件 是 训练 样 例 线性 可 分 。 增 量 法 则 渐 近 收敛 到 
最 小 误差 假设 ,可 能 需要 极 长 的 时 间 , 但 无 论 训练 样 例 是 否 线性 可 分 都 会 收敛 。 关 于 以 上 收敛 
性 的 详细 证 明 可 以 参考 Hertz et al. (1991)。 
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学 习 权 向 量 的 第 三 种 方法 是 线性 规划 (linear programming)。 线 性 规划 是 解 线性 不 等 式 方 
程 组 的 一 种 通用 的 有 效 方法 。 注 意 每 个 训练 样 例 对 应 一 个 形式 为 wx >0 或 w.x<0 的 不 
等 式 ,并 且 它 们 的 解 就 是 我 们 期 望 的 权 向 量 。 遗 憾 的 是 ,这 种 方法 仅 当 训练 样 例 线性 可 分 时 有 
解 。Duda & Hart (1973,p.168) 推 荐 了 一 种 更 巧妙 的 适合 非 线 性 可 分 的 情况 的 方法 。 无 论 如 
何 , 这 种 线性 规划 的 方法 不 能 扩展 到 训练 多 层 网 络 ,这 是 我 们 最 关心 的 。 相 反 ,正如 下 -- 节 所 
讨论 的 ,基于 增 量 法 则 的 梯度 下 降 方法 可 以 被 简单 地 扩展 到 多 层 网 络 。 


4.5 多 层 网 络 和 反 向 传播 算法 


正如 第 4.4.1 节 所 指出 的 ,单个 感知 器 仅 能 表示 线性 决策 面 。 相 反 , 反 向 传播 算法 所 学 习 
的 多 层 网 络 能 够 表示 种 类 繁多 的 非 线 性 曲面 。 例 如 ,图 4-5 描述 了 一 个 典型 的 多 层 网 络 和 它 
的 决策 曲面 。 这 个 语音 识别 任务 要 区 分 出 现在 “h _d" 上 下 文中 的 10 种 元 音 ( 例 如 ,“hid”、 
“had”“head”、“hood” 等 )。 输 入 的 语音 信号 用 两 个 参数 表示 ,它们 是 通过 对 声音 的 频谱 分 析 
得 到 的 ,这 样 我 们 可 以 方便 地 在 二 维 实 例 空间 中 显示 出 决策 面 。 如 图 可 见 , 多 层 网 络 能 够 表示 
高 度 非 线性 的 决策 面 , 它 比 前 面 图 4-3 中 画 出 的 单个 单元 的 线性 决策 面 表征 能 力 更 强 。 





6 $00 1000 1400 
Fi (Hz) 


这 里 显示 的 网 络 是 用 来 训练 识别 10 种 出 现在 “h _d"( 例 如 “had”,“hid”) 间 的 元 音 。 这 个 网 络 的 输入 由 两 个 参 
数 Fl 和 F2 组 成 ,它们 是 通过 对 声音 的 频谱 进行 分 析 得 到 的 。 网 络 的 10 个 输出 对 应 于 10 个 可 能 的 元 音 。 这 个 
网 络 的 预测 是 其 中 有 最 大 值 的 输出 。 右 图 画 出 了 学 到 的 网 络 所 代表 的 高 度 非 线性 决策 面 。 图 中 的 点 表示 测试 
样 例 ,它们 与 用 来 训练 这 个 网 络 的 样 例 是 完全 不 同 的 (经 许可 摘自 Haung & Lippmann(1988))。 


图 4-5 多 层 前 馈 网 络 的 决策 区 域 
本 节 讨 论 如 何 学 习 这 样 的 多 层 网 络 ,使 用 的 算法 和 前 面 讨 论 的 梯度 下 降 方法 相似 。 
4.5.1 可 微 阔 值 单元 


应 该 使 用 什么 类 型 的 单元 来 作为 构建 多 层 网 络 的 基础 呢 ? 起 初 我 们 可 以 尝试 选择 前 面 讨 
论 的 线性 单元 ,因为 我 们 已 经 为 这 种 单元 推导 出 了 一 个 梯度 下 降 学 习 法 则 。 然 而 ,多 个 线性 单 
元 的 连接 仍 产生 线性 函数 ,而 我 们 更 希望 选择 能 够 表征 非 线 性 函数 的 网 络 。 感 知 器 单元 是 另 
一 种 选择 ,但 它 的 不 连续 阔 值 使 它 不 可 微 ,所 以 不 适合 梯度 下 降 算 法 。 我 们 所 需要 的 是 这 样 的 
单元 , 它 的 输出 是 输入 的 非 线性 函数 ,并 且 输 出 是 输入 的 可 微 函数 。 一 种 答案 是 sigmoid 单元 
(unit) ,这 是 一 种 非常 类 似 于 感知 器 的 单元 ,但 它 基 于 一 个 平滑 的 可 微 阐 值 函数 。 
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图 4-6 画 出 了 sigmoid 单元 。 与 感知 器 相似 ,sigmoid 单元 先 计算 它 的 输入 的 线性 组 合 , 然 
后 应 用 一 个 阔 值 到 此 结果 。 然 而 ,对 于 sigmoid 单元 , 阔 值 输出 是 输入 的 连续 函数 。 更 精确 地 
讲 ,sigmoid 单元 这 样 计算 它 的 输出 : 

o=0(w'x) 
其 中 : 
1 

l+e 7 

o 经 常 被 称 为 sigmoid 函数 或 者 也 可 以 称 为 logistic PAK (logistic function) o 注意 , 它 的 输 
出 范围 为 0 到 1, 随 输入 单调 递增 (参见 图 4-6 中 的 阅 值 隧 数 曲线 )。 因 为 这 个 函数 把 非常 大 的 
输入 值 域 映射 到 一 个 小 范围 的 输出 , 它 经 常 被 称 为 sigmoid 单元 的 挤 压 函数 (squashing func- 
tion). sigmoid 函数 有 一 个 有 用 的 特征 ,就 是 它 的 导数 很 容易 用 它 的 输出 表示 [确切 地 讲 ， 
oe = so(y)-(1- c(y)]。 我 们 将 看 到 ,后 面 的 梯度 下 降 学 习 法 则 使 用 了 这 个 导数 。 有 时 也 
可 以 使 用 其 他 易 计 算 导 数 的 可 微 函 数 代替 c。 例 如 ,sigmoid 函数 定义 的 e 7 项 有 时 被 替换 为 
e-*7, 其 中 为 某 个 正 的 常数 ,用 来 决定 这 个 阐 值 函数 的 陡峭 性 。 双 曲 正 切 函 数 tanh 有 时 也 
用 来 代替 sigmoid 函数 (参见 习题 4.8)。 





o(y)= (4.12) 








o = O(net) = l 
I+e 


图 4-6 sigmoid 阅 值 单元 


4.5.2 反 向 传播 算法 


对 于 由 一 系列 确定 的 单元 互 连 形成 的 多 层 网 络 , 反 疝 传播 算法 可 用 来 学 习 这 个 网 络 的 权 
值 。 它 采用 梯度 下 降 方法 试图 最 小 化 网 络 输出 值 和 目标 值 之 间 的 误差 平方 。 这 一 节 给 出 反 向 
传播 算法 ,下 一 节 推导 出 反 向 传播 算法 使 用 的 梯度 下 降 权 值 更 新 法 则 。 

因为 我 们 要 考虑 多 个 输出 单元 的 网 络 ,而 不 是 像 以 前 只 考虑 单个 单元 ,所 以 我 们 先 重新 定 
义 误差 ,以便 对 所 有 网 络 输出 的 误差 求 和 。 

E(w) = 5D) 2 Cim- oa) (4.13) 
JED k€ outputs 

其 中 ,outputs 是 网 络 输出 单元 的 集合 , tw 和 ou 是 与 训练 样 例 d 和 第 个 输出 单元 相关 的 输出 值 。 

反 向 传播 算法 面临 的 学 习 问 题 是 搜索 一 个 巨大 的 假设 空间 ,这 个 空间 由 网 络 中 所 有 单元 
的 所 有 可 能 的 权 值 定义 。 这 种 情况 可 以 用 一 个 误差 曲面 来 可 视 化 表示 ,与 图 4-4 表示 的 线性 
单元 的 误差 曲面 相似 。 那 幅 图 中 的 误差 被 我 们 的 新 的 误差 定义 E 所 替代 ,并 且 其 他 的 空间 的 
维 现在 对 应 网 络 中 与 所 有 单元 相关 的 所 有 权 值 。 和 训练 单个 单元 的 情况 一 样 ,梯度 下 降 可 被 
用 来 尝试 寻找 一 个 假设 使 E 最 小 化 。 

在 多 层 网 络 中 ,误差 曲面 可 能 有 多 个 局 部 极 小 值 ,而 图 4-4 表示 的 抛物 曲面 仅 有 一 个 最 小 
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(Bi, WRAY FE: ROR RE BREF PEALE PRE OAL BEML, ,而 未 必得 到 全 局 最 小 的 误差。 
尽管 有 这 个 障碍 ,已 经 发 现 对 于 实践 中 很 多 应 用 反 向 传播 算法 都 产生 了 出 色 的 结果 。 
表 4-2 给 出 了 反 向 传播 算法 。 这 里 描述 的 算法 适用 于 包含 两 层 sigmoid 单元 的 分 层 前 馈 
网 络 ,并 且 每 一 层 的 单元 与 前 一 层 的 所 有 单元 相连 。 这 是 反 向 传播 算法 的 增 量 梯度 下 降 (或 随 
机 梯度 下 降 ) 版 本 。 这 里 使 用 的 符号 与 前 一 节 使 用 的 一 样 ,并 进行 了 如 下 的 扩展 : 
© 网 络 中 每 个 结 点 被 赋予 一 个 序号 (例如 一 个 整数 ), 这 里 的 “ 结 点 "要 么 是 网 络 的 输入 ,要 
么 是 网 络 中 某 个 单元 的 输出 。 
o ;表示 结 点 i 到 单元 j 的 输入 , wj 表示 对 应 的 权 值 。 
e 6, 表示 与 单元 a 相关 联 的 误差 项 。 它 的 角色 与 前 面 讨论 的 delta 训练 法 则 中 的 (+ - 0) 
相似 。 后 面 我 们 可 以 看 到 6, = - 5%. 
表 4-2 的 算法 ,从 建立 一 个 具有 期 望 数量 的 隐藏 单元 和 输出 单元 的 网 络 并 初始 化 所 有 网 
络 的 权 值 为 小 的 随机 数 开始 。 给 定 了 这 个 固定 的 网 络 结构 ,算法 的 主 循环 就 对 训练 样 例 进行 
反复 的 迁 代 。 对 于 每 一 个 训练 样 例 , 它 应 用 目前 的 网 络 到 这 个 样 例 ,计算 出 对 于 这 个 样 例 网 络 
输出 的 误差 ,然后 更 新 网 络 中 所 有 的 权 值 。 对 这 样 的 梯度 下 降 步骤 进行 迭代 ,直到 网 络 的 性 能 
达到 可 接受 的 精度 为 止 (经 常 需要 上 千 次 ,多 次 使 用 同样 的 训练 样 例 ) 。 


表 4-2 包含 两 层 sigmoid 单元 的 前 馈 网 络 的 反 向 传播 算法 (随机 梯度 下 降 版 本 ) 


BACKPROPAGATION( training. examples, 7, nin, Nou» Nhidden) 
trainning - exaples 中 每 一 个 训练 样 例 是 形式 为 (x ,的 序 偶 ,其 中 x 是 网 络 输入 值 向 量 ,: 是 目标 输出 值 。 
7 是 学 习 速 率 (例如 0.05)。 mn 是 网 络 输入 的 数量 , nwaien 是 隐藏 层 单元 数 ,now 是 输出 单元 数 。 
从 单元 i 到 单元 j 的 输入 表示 为 xj; ,单元 i 到 单元 j 的 权 值 表示 为 wjio 
@ 创建 具有 nan 个 输入 , nuaumn 个 隐藏 单元 , now 个 输出 单元 的 网 络 
全 初始 化 所 有 的 网 络 权 值 为 小 的 随机 值 (例如 -0.05 和 0.05 之 问 的 数 ) 
© 在 过 到 终止 条 件 前 : i 
O 对 于 训练 样 例 training _ examples PRIBT (x,t): 
把 输入 沿 网 络 前 向 传播 
1. 把 实例 x 输 和 人 网络 ,并 计算 网 络 中 每 个 单元 u 的 输出 o。 
使 误差 沿 网 络 反 向 传播 
2. 对 于 网 络 的 每 个 输出 单元 ,计算 它 的 误差 项 ô, 
Oy orll- 04) (ty ob) (4.14) 
3. 对 于 网 络 的 每 个 隐藏 单元 ,计算 它 的 误差 项 6, 
Shon -0n) > wade (4.15) 


4. 更 新 每 个 网 络 权 值 w 





wat wit Aw 
其 中 
Aw, = Bix; (4.16) 





这 里 的 梯度 下 降 权 更 新 法 则 ( 表 4-2 中 的 公式 (4.16)) 与 delta 训练 法 则 (公式 (4.10)) 相 
We PUR delta 法 则 , 它 依照 以 下 三 者 来 更 新 每 一 个 权 : 学 习 速 率 n BOERNE xj 
和 这 个 单元 输出 的 误差 。 惟 一 的 不 同 是 delta 法 则 中 的 误差 项 (+ - o) 被 替换 成 一 个 更 复杂 的 
误差 项 8) 。 在 第 4.5.3 节 的 对 权 更 新 法 则 的 推导 之 后 ,我 们 将 给 出 ô 的 准确 形式 。 为 了 直观 
地 理解 它 , 先 考虑 网 络 的 每 一 个 输出 单元 & 的 5,( 在 算法 的 公式 (4.14) 中 )) 是 怎样 计算 的 。 
很 简单 ,8, 与 delta 法 则 中 的 (&-04) 相 似 , 但 乘 上 了 sigmoid 挤 压 函数 的 导数 oC- of)。 每 个 
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隐藏 单元 h 的 5, 的 值 具有 相似 的 形式 (算法 的 公式 (4.15))。 然 而 ,因为 训练 样 例 仅 对 网 络 的 
输出 提供 了 目标 值 去 ,所 以 缺少 直接 的 目标 值 来 计算 隐藏 单元 的 误差 值 。 因 此 采取 以 下 间接 
办 法 计算 隐藏 单元 的 误差 项 : 对 受 隐藏 单元 h 影响 的 每 一 个 单元 的 误差 6 进行 加 权 求 和 ,每 
个 误差 ô, PUAN wy, zi 就 是 从 隐藏 单元 六 到 输出 单元 上 的 权 值 。 这 个 权 值 刻画 了 隐藏 单 元 
h 对 于 输出 单元 的 误差 应 “负责 ”的 程度 。 

表 4-2 中 的 算法 随 着 每 个 训练 样 例 的 出 现 而 递增 地 更 新 权 。 这 一 点 与 梯度 下 降 的 随机 近似 算 
法 一 致 。 要 取得 误差 E 的 真实 梯度 ,需要 在 修改 权 值 之 前 对 所 有 训练 样 例 的 6x; 值 求 和 。 

在 典型 的 应 用 中 , 反 向 传播 算法 的 权 值 更 新 迭代 会 被 重复 上 千 次 。 有 很 多 终止 条 件 可 以 
用 来 停止 这 个 过 程 。 一 种 方法 是 在 迭代 的 次 数 到 了 一 个 固定 值 时 停止 :或 当 在 训练 样 例 上 的 
误差 降 到 某 个 阔 值 以 下 时 ;或 在 分 离 的 验证 样 例 集合 上 的 误差 符合 某 个 标准 时 。 终 止 判 据 的 
选择 是 很 重要 的 ,因为 太 少 的 迭代 可 能 无 法 有 效 地 降低 误差 ,而 太 多 的 和 迭代 会 导致 对 训练 数据 
的 过 度 拟 合 。 在 第 4.6.5 节 中 我 们 会 更 详细 地 讨论 这 个 问题 。 

1 .增加 冲 量 项 

因为 反 向 传播 算法 的 应 用 如 此 广泛 ,所 以 已 经 开发 出 了 很 多 反 向 传播 算法 的 变 体 。 其 中 
最 常见 的 是 修改 算法 中 公式 (4.16) 的 权 值 更 新 法 则 ,使 第 ”次 迭代 时 的 权 值 的 更 新 部 分 地 依 
TREES n -1 次 迭代 时 的 更 新 , 即 把 公式 (4.16) 换 为 如 下 的 形式 : 

Awaia(n) = Wxi + aAwi(n - 1) (4.17) 

这 里 Awi(n) 是 算法 主 循环 中 的 第 n 次 迭代 进行 的 权 值 更 新 ,并 且 0<a <1 是 一 个 称 为 
冲 量 (momentum) 的 常数 。 注意 ,这 个 公式 右 侧 的 第 一 项 就 是 反 向 传播 算法 的 公式 (4.16) 中 
的 权 值 更 新 法 则 。 右 边 的 第 二 项 是 新 的 ,被 称 为 冲 量 项 。 为 了 理解 这 个 冲 量 项 的 作用 ,设想 梯 
度 下 降 的 搜索 轨迹 就 好 像 一 个 (无 冲 量 的 ) 球 沿 误差 曲面 滚 下 。w 的 作用 是 增加 冲 量 ,使 这 个 
球 从 一 次 迭代 到 下 一 次 迭代 时 以 同样 的 方向 滚动 。 冲 量 有 时 会 使 这 个 球 滚 过 误差 曲面 的 局 部 
极 小 值 或 使 其 滚 过 误差 曲面 上 的 平坦 区 域 。 如 果 没 有 冲 量 , 这 个 球 有 可 能 在 这 个 区 域 停止 。 
它 也 具有 在 梯度 不 变 的 区 域 逐 渐 增 大 搜索 步 长 的 效果 ,从 而 可 以 加 快 收敛 。 

2. 学 习 任意 的 无 环 网 络 

表 4-2 给 出 的 反 向 传播 算法 的 定义 仅 适 用 于 两 层 的 网 络 。 然 而 那里 给 出 的 算法 可 以 简单 
地 推广 到 任意 深度 的 前 馈 网 络 。 公 式 (4.16) 的 权 值 更 新 法 则 保持 不 变 , 惟 一 的 变化 是 计算 6 
值 的 过 程 。 概 括 地 说 ,第 m 层 的 单元 r 的 6, 值 是 由 更 深 的 m + 1 层 的 6 值 根据 下 式 计算 的 : 

ô, = 0,(1 ~ o) a Ww ods (4.18) 
注意 ,这 个 公式 与 表 4-2 算法 的 第 3 步 相 同 ， 这 里 要 说 明 的 是 对 于 网 络 中 的 任意 数量 的 隐 
藏 单 元 ,该 步骤 要 被 重复 很 多 饥 。 

将 这 个 算法 推广 到 任何 有 向 无 环 结构 也 同样 简单 ,而 不 论 网 络 中 的 单元 是 否 像 我 们 目 前 
假定 的 那样 被 排列 在 统一 的 屋 上 。 对 于 网 络 单元 没有 按 此 排列 的 情况 ,计算 任意 内 部 单元 (也 
就 是 所 有 非 输出 单元 ) 的 O 的 法 则 是 : 

6, = 0,(1 - or) 5 W „Ô; (4.19) 


s€ Downstream(r) 


其 中 , Downstream ( r) 是 在 网 络 中 单元 r 的 直接 的 下 游 (immediately downstream ) 单 元 的 
集合 ,或 者 说 输入 中 包括 r 的 输出 的 所 有 单元 。 第 4.5.3 节 我 们 要 推导 的 就 是 这 种 权 值 更 新 


法 则 的 一 般 形式 。 











45.3 反 向 传播 法 则 的 推导 


这 一 节 给 出 反 向 传播 算法 的 权 值 调整 法 则 的 推导 ,如 果 是 第 一 遍 阅 读 可 以 跳 过 这 一 - 节 , 而 
不 失 连 续 性 。 

这 里 我 们 要 解决 的 问题 是 推导 出 表 4-2 算法 使 用 的 随机 梯度 下 降 法 则 。 回 忆 公 
式 (4.11) ,随机 的 梯度 下 降 算法 迭代 处 理 训练 样 例 ,每 次 处 理 一 个 。 对 于 每 个 训练 样 例 d , 利 
用 关于 这 个 样 例 的 误差 Eu 的 梯度 修改 权 值 。 换 名 话说 ,对 于 每 一 个 训练 样 例 d ,每 个 权 w 
被 增加 Awyi: 

IE, 
=-7 Iw 
其 中 , Ea 是 训练 样 例 d 的 误差 ， SETS TREES 
E,(w) = = 2, =, (tp — ob) 


ZH, outputs 是 网 络 中 输出 单元 的 集合 , t 是 单元 对 于 训练 样 例 d 的 目标 值 , o 是 给 
定 训练 样 例 d 时 单元 & 的 输出 值 。 

随机 梯度 下 降 法 则 的 推导 在 概念 上 是 易 懂 的 ,但 需要 留意 很 多 下 标 和 和 变量。 我们 将 遵循 
图 4-6 中 所 画 出 的 符号 ,增加 一 个 下 标 ; 用 来 表示 网 络 中 的 第 j 个 单元 ,具体 如 下 : 

o ,= 单元 j 的 第 ; 个 输入 

e wi= 与 单元 j 的 第 i 个 输入 相关 联 的 权 值 

@ net; = Dwr EI j 的 输入 的 加 权 和 ) 

。。 = 单元 j 计算 出 的 输出 

0 -单元 j 的 目标 输出 

© o = sigmoid 函数 

© outputs = 网 络 最 后 一 层 的 单元 的 集合 

© Downstream(j) = 单元 的 直接 输入 (immediate inputs) 中 包含 单元 j 的 输出 的 单元 的 集合 


现在 我 们 导出 了 < 的 一 个 表达 式 ， 以 便 实现 公式 (4.20) 中 所 讲 的 随机 梯度 下 降 法 则 。 


先 , 注 意 权 值 w ; 仅 能 通过 net; 影响 网 络 的 其 他 部 分 。 所 以 ,我 们 可 以 使 用 链 式 规则 (chain 
rule) 得 到 ; 


Aw; (4.20) 


d Ea og 9 net; 
ak, 
~ ~ Inet; ji 


已 知 等 式 (4.21) ,我 们 剩 下 的 任务 就 是 为 5 viet yt 一 个 方便 的 表达 式 。 我 们 依次 考虑 两 


种 情况 : 一 种 情况 是 单元 j 是 网 络 的 一 个 输出 单元 ， 另 一 种 情况 是 j 是 一 个 内 部 单元 。 
情况 1 : 输出 单元 的 权 值 训练 法 则 ”就 像 wj 仅 能 通过 net, 影响 网 络 一 样 , nes, 仅 能 通过 
o; 影响 网 络 。 所 以 我 们 可 以 再 次 使 用 链 式 规则 得 出 ; 


JE, _ Ea Joj 
= 4.22 
9 net; Joj Inet; ( ) 





(4.21) 
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首先 , 仅 考 虑 公式 (4.22) 的 第 一 项 : 


除了 当天 = 了 时 ,所 有 输出 单元 大 的 导数 -- o g) 为 0。 所 以 我 们 不 必 对 多 个 输出 单 
元 求 和 ,只 需 设 k =jo 


aryo) 
= 521, - 9 iP = 9) 
doj 
= -(t;-9;) (4.23) 


接 下 来 考虑 公式 (4.22) 中 的 第 二 项 。 既 然 o = o( net;), 导数 了 就 是 sigmoid 函数 的 导 


数 , 而 我 们 已 经 指出 sigmoid 函数 的 导数 为 c(neb )(1- o(net;))« 所 以 ; 
Jo; 9o( net; ) 








Inet; = 9 net; 
= o;(l — o;) (4.24) 
把 表达 式 (4.23) 和 (4.24) 代 人 (4.22) ,我 们 得 到 : 
9 
5 =-(-o)oll-o) (4.25) 


然后 与 公式 (4.20) 和 (4.21) 合 并 ,我 们 便 推导 出 了 输出 单元 的 随机 梯度 下 降 法 则 : 


Awi =- 1554 = = nlt; ~ 0,)0,(1 - 0) x; (4.26) 
注意 ,这 个 训练 法 则 恰恰 是 表 4-2 算法 中 的 公式 (4.14) 和 公式 (4.16) 的 权 值 更 新 法 则 。 


此 外 ,我 们 可 以 发 现 公式 (4.14) 中 的 3 与 - 5 的 值 相等 。 在 这 一 节 的 其 余部 分 我 们 将 使 





用 5, 来 表示 任意 单元 i M- 52, 

情况 2 : 隐藏 单 元 的 权 值 训练 法 则 ”对 于 网 络 中 的 内 部 单元 或 者 说 隐藏 单元 的 情况 , 推 
导 wi 必须 考虑 wi 间接 地 影响 网 络 输出 ,从 而 影响 Ea4。 由 于 这 个 原因 ,我 们 发 现 定义 网 络 中 
单元 j 的 所 有 直接 下 游 (immediately downstream) 单 元 的 集合 (也 就 是 直接 输入 中 包含 单元 j 
的 输出 的 所 有 单元 ) 是 有 用 的 。 我 们 用 Downstream(j) 表 示 这 样 的 单元 集合 。 注意 ， net, 只 能 
通过 Downstream(j) 中 的 单元 影响 网 络 输出 (再 影响 Eu)。 所 以 可 以 得 出 如 下 推导 : 














dE 4 T JEg Inet, 
Inet; kE Downstream( j} Inet, 9 net; 
_ Sn 9 net, 
C kE Downsiream() TE Inet; 

Sn Inet, 9o 





— Ok 
kE Downstream( j) 9 0; 9 net; 








Jo; 


9 net; 


= ») 


2 一 OL hy 
kE Downstream( j} 


= 2 - Owpo(l - oj) (4.27) 


kE Downstream( j) 


重新 组 织 各 项 并 使 用 5, 表示 - 24 ,我 们 得 到 : 
J 


k€ Downstream( j) 


和 
Awi = Pix ji 


上 式 就 是 由 公式 (4.19) 得 到 的 一 般 法 则 ,用 来 更 新 任意 有 向 无 环 网 络 结构 内 部 单元 的 权 
值 。 注 意 , 表 4-2 中 的 公式 (4.15) 仅 是 这 个 法 则 当 Downstream (j) = outputs 时 的 一 个 特例 。 


4.6 反 向 传播 算法 的 说 明 


4.6.1 收敛 性 和 局 部 极 小 值 


正如 前 面 所 描述 的 , 反 向 传播 算法 实现 了 一 种 对 可 能 的 网 络 权 值 空间 的 梯度 下 降 搜 索 , 它 
迭代 地 减 小 训练 样 例 的 目标 值 和 网 络 输出 间 的 误差 。 因 为 对 于 多 层 网 络 , 误 差 曲面 可 能 含有 
多 个 不 同 的 局 部 极 小 值 ,梯度 下 降 可 能 陷 人 这 些 局 部 极 小 值 中 的 任何 一 个 。 因 此 ,对 于 多 层 网 
络 , 反 向 传播 算法 仅 能 保证 收敛 到 误差 的 某 个 局 部 极 小 值 ,不 一 定 收敛 到 全 局 最 小 误差 。 

尽管 缺乏 对 收 伍 到 全 局 最 小 误差 的 保证 , 反 向 传播 算法 在 实践 中 仍 是 非常 有 效 的 函数 各 
近 算 法 。 对 于 很 多 实际 的 应 用 ,人 们 发 现 局 部 极 小 值 的 问题 没有 想像 的 那么 严重 。 为 了 对 这 
个 问题 有 一 些 直观 的 认识 ,考虑 含有 大 量 权 值 的 网 络 , 它 对 应 着 维 数 非常 高 的 空间 中 的 误差 曲 
面 (每 个 权 值 一 维 )。 当 梯度 下 降 陷 人 相对 某 个 权 的 局 部 极 小 值 时 ,相对 其 他 的 权 ,这 里 未 必 是 
局 部 极 小 值 。 事 实 上 ,网 络 的 权 越 多 ,误差 曲面 的 维 数 越 多 ,也 就 越 可 能 为 梯度 下 降 提 供 更 多 
的 “逃逸 路 线 ”, 让 梯度 下 降 离开 相对 该 单个 权 值 的 局 部 极 小 值 。 

对 局 部 极 小 值 的 第 二 种 观点 是 需 考虑 随 着 训练 中 迭代 次 数 的 增加 网 络 权 值 的 演化 方式 。 
注意 ,在 算法 中 ,如 果 把 网 络 的 权 值 初始 化 为 接近 于 0 的 值 ,那么 在 早期 的 梯度 下 降 步 又 中 ,网 
络 将 表现 为 一 个 非常 平滑 的 函数 ,近似 为 输入 的 线性 函数 。 这 是 因为 sigmoid 函数 本 身 在 权 
值 靠 近 0 时 接近 线性 ( 见 图 4-6 中 的 sigmoid 函数 曲线 )。 仅 当权 值 已 经 增长 了 一 定时 间 之 后 ， 
它们 才 会 到 达 可 以 表示 高 度 非 线性 网 络 函 数 的 程度 。 可 以 预期 在 这 个 能 表示 更 复杂 函数 的 权 
空间 区 域 存在 更 多 的 局 部 极 小 值 。 但 希望 当权 到 达 这 一 点 时 它们 已 经 足够 靠近 全 局 最 小 值 ， 
即便 它 是 这 个 区 域 的 局 部 极 小 值 也 是 可 以 接受 的 。 

尽管 有 上 面 的 评论 ,人 们 对 用 ANN 表示 的 复杂 误差 曲面 的 梯度 下 降 理解 得 还 是 不 够 ,还 
不 知道 有 何方 法 能 确切 地 预测 局 部 极 小 值 什么 时 候 会 导致 困难 。 用 来 缓解 局 部 极 小 值 问题 的 
一 些 常见 的 启发 式 规则 包括 : 

© 像 公 式 (4.17) 描 述 的 那样 ,为 梯度 更 新 法 则 加 一 个 冲 量 项 。 冲 量 有 时 可 以 带动 梯度 下 

降 过 程 , 冲 过 狭窄 的 局 部 极 小 值 (然而 ,原则 上 它 也 可 以 带动 梯度 下 降 过 程 冲 过 狭窄 的 
全 局 最 小 值 到 其 他 局 部 极 小 值 !)。 
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o 使 用 随机 的 梯度 下 降 而 不 是 真正 的 梯度 下 降 。 根 据 前 面 的 讨论 ,梯度 下 降 的 随机 近似 
对 于 每 个 训练 样 例 沿 一 个 不 同 的 误差 曲面 有 效 下 降 , 它 依靠 这 些 梯 度 的 平均 来 近似 对 
于 整个 训练 集合 的 梯度 。 这 些 不 同 的 误差 曲面 通常 有 不 同 的 局 部 极 小 值 ,这 使 得 下 降 
过 程 不 太 可 能 陷 人 任意 一 个 局 部 极 小 值 。 

© 使 用 同样 的 数据 训练 多 个 网 络 ,但 用 不 同 的 随机 权 值 初 始 化 每 个 网 络 。 如 果 不 同 的 训 
练 产生 不 同 的 局 部 极 小 值 ,那么 对 分 离 的 验证 集合 性 能 最 好 的 那个 网 络 将 被 选中 。 或 
者 保留 所 有 的 网 络 ,并 且 把 它们 当 作 一 个 网 络 “ 委 员 会 ”, 它 们 的 输出 是 每 个 网 络 输出 的 
平均 值 (可 能 加 权 )。 


4.6.2 前 馈 网 络 的 表征 能 力 


什么 类 型 的 函数 可 以 使 用 前 馈 网 络 来 表示 呢 ? 当然 这 个 问题 的 答案 依赖 于 网 络 的 宽度 和 
深度 。 尽 管 目前 对 哪 一 族 函数 可 以 用 哪 种 类 型 的 网 络 描述 还 知道 得 很 少 ,但 已 经 知道 了 三 个 
一 般 性 的 结论 : 

e@ 布尔 函数 : 任何 布尔 函数 可 以 被 具有 两 层 单元 的 网 络 准确 表示 ,尽管 在 最 坏 的 情况 下 

所 需 隐藏 单 元 的 数量 随 着 网 络 输入 数量 的 增加 成 指数 级 增长 。 为 了 说 明 这 是 如 何 实现 
的 ,考虑 下 面 表示 任意 布尔 函数 的 通用 方案 : 对 于 每 一 个 可 能 的 输入 向 量 ,创建 不 同 的 
隐藏 单元 ,并 设置 它 的 权 值 使 当 且 仅 当 这 个 特定 的 向 量 输入 到 网 络 时 该 单元 被 激活 。 
这 样 就 产生 了 一 个 对 于 任意 输入 仅 有 一 个 单元 被 激活 的 隐藏 层 。 接 下 来 把 输出 单元 实 
现 为 一 个 仅 由 所 希望 的 输入 模式 激活 的 或 门 (OR gate)。 

eee BK: 每 个 有 界 的 连续 函数 可 以 由 一 个 两 层 的 网 络 以 任意 小 的 误差 (在 有 限 的 范 数 

下 ) 通 近 (Cybenko 1989, Hornik et al. 1989)。 这 个 理论 适用 于 在 隐藏 层 使 用 sigmoid 单元 \ 在 
输出 层 使 用 ( 非 阐 值 的 ) 线 性 单元 的 网 络 。 所 需 的 隐藏 单 元 数量 依赖 于 要 百 近 的 函数 。 

@ 任意 函数 ; 任意 函数 可 以 被 一 个 有 三 层 单元 的 网 络 以 任意 精度 逼近 (Cybenko 1988)。 

与 前 面相 同 ,输出 层 使 用 线性 单元 ,两 个 隐藏 层 使 用 sigmoid 单元 ,每 一 层 所 需 的 单元 数 
量 一 般 不 确定 。 这 一 结论 的 证 明 方法 为 : 首先 说 明 任 意 函 数 可 以 被 许多 局 部 化 函数 的 
线性 组 合 逼 近 , 这 些 局 部 化 函数 的 值 除了 某 个 小 范围 外 都 为 0; 然 后 说 明 两 层 的 sigmoid 
PCED PH BF ARE. 

这 些 结论 表明 有 限 深度 的 前 馈 网 络 为 反 向 传播 算法 提供 了 非常 有 表征 力 的 假设 空间 。 然 
而 记 住 下 面 一 点 是 重要 的 : 梯度 下 降 是 从 一 个 初始 的 权 值 开始 的 ,因此 搜索 范围 里 的 网 络 权 
向 量 可 能 不 包含 所 有 的 权 向 量 。Hertz et al. (1991) 提 供 了 上 面 结论 的 更 详细 的 讨论 。 


4.6.3 假设 空间 搜索 和 归纳 偏 置 


把 反 向 传播 算法 的 假设 空间 搜索 和 其 他 学 习 算法 采取 的 搜索 相 比较 很 有 意义 。 对 于 反 向 
传播 算法 ,网 络 权 的 每 一 种 可 能 赋值 都 表示 了 一 个 句法 不 同 的 假设 ,原则 上 都 在 学 习 器 的 考虑 
范围 内 。 换 句 话说 ,这 个 假设 空间 是 n 个 网 络 权 值 的 ” 维 欧 氏 空间 。 注 意 ,这 个 空间 是 连续 
的 ,这 与 决策 树 学 习 和 其 他 基于 离散 表示 的 方法 的 假设 空间 完全 不 同 。 假 设 空间 的 连续 性 以 
及 误差 E 关于 假设 的 连续 参数 可 微 这 两 个 事实 ,导致 了 一 个 定义 良好 的 误差 梯度 ,为 最 佳 假 
设 的 搜索 提供 了 一 个 非常 有 用 的 结构 。 这 个 结构 与 基于 符号 的 概念 学 习 算法 的 “一 般 到 特殊 
序 " 搜 索 的 结构 ,或 ID3 和 C4.5 算法 中 对 决策 树 的 简单 到 复杂 序 搜索 所 用 的 结构 都 完全 不 








同 。 

反 向 传播 算法 从 观测 数据 中 泛 化 的 归纳 偏 置 是 什么 呢 ? 精确 地 刻画 出 反 向 传播 学 习 的 归 
纳 偏 置 是 有 难度 的 ,因为 它 依 赖 于 梯度 下 降 搜 索 和 权 空 间 覆 盖 可 表征 函数 空间 的 方式 的 相互 
作用 性 。 然 而 ,可 以 把 这 一 偏 置 粗略 地 刻画 为 在 数据 点 之 间 平 滑 插 值 (smooth interpolation be- 
tween data points) 。 如 果 给 定 两 个 正 例 , 它 们 之 间 没 有 反例 , 反 向 传播 算法 会 倾向 于 把 这 两 点 
之 间 的 点 也 标记 为 正 例 。 例 如 ,在 图 4-5 画 出 的 决策 面 中 可 以 看 到 这 一 点 ,训练 样 例 的 特定 样 
本 产生 了 平滑 变化 的 决策 区 域 。 


4.6.4 隐藏 层 表 示 


反 向 传播 算法 的 一 个 迷人 的 特性 是 , 它 能 够 在 网 络 内 部 的 隐藏 层 发 现 有 用 的 中 间 表 示 。 
因为 训练 样 例 仅 包含 网 络 输入 和 输出 , 权 值 调节 的 过 程 可 以 自由 地 设置 权 值 ,来 定义 任何 隐藏 
单元 表示 ,这 些 隐藏 单元 表示 在 使 误差 平方 E 达到 最 小 化 时 最 有 效 。 这 能 够 引导 反 向 传播 算 
法 定义 新 的 隐藏 层 特征 ,这 些 特 征 在 输入 中 没有 明确 表示 出 来 ,但 却 能 捕 提 输 入 实例 中 与 学 习 
目标 函数 最 相关 的 特征 。 

例如 ,考虑 图 4-7 所 示 的 网 络 。 这 里 ,8 个 网 络 输入 与 3 个 隐藏 单元 相连 ,3 个 隐藏 单元 又 
依次 连接 到 8 个 输出 单元 。 由 于 这 样 的 结构 ,3 个 隐藏 单元 必须 重新 表示 8 个 输入 值 ,以 某 种 
方式 捕捉 输入 的 相关 特征 ,以便 这 个 隐藏 层 的 表示 可 以 被 输出 单元 用 来 计算 正确 的 目标 值 。 


一 一 
一 一 
一 > 
一 一 
一 一 
> 一 
一 > > 
> 一 





这 个 8 x 3 x 8 的 网 络 被 训练 以 学 习 恒 等 函 数 ,使 用 图 中 所 示 的 8 个 训练 样 例 。 在 5000 轮 (epochs) 训 练 之 后 ,3 
个 隐藏 单元 使 用 图 右 侧 的 编码 方式 来 编码 8 个 相互 不 同 的 输入 。 注 意 ,如 果 把 编码 后 的 值 四 会 五 人 为 0 和 1， 
那么 结果 是 8 个 不 同 值 的 标准 二 进 制 编码 

图 4-7 学 习 到 的 隐藏 层 表 示 


考虑 训练 图 4-7 所 示 的 网 络 , 来 学 习 简 单 的 目标 函数 /(x) = x, 其 中 ,x 是 含有 七 个 0 和 
一 个 1 的 向 量 。 网 络 必须 学 会 在 8 个 输出 单元 重 现 这 8 个 输入 。 尽 管 这 是 一 个 简单 的 函数 ， 
但 现在 限制 网 络 只 能 使 用 3 个 隐藏 单元 。 所 以 ,学 习 到 的 3 个 隐藏 单元 必须 捕捉 住 来 自 8 个 
输入 单元 的 所 有 关键 信息 。 

当 反 向 传播 算法 被 用 来 完成 这 个 任务 时 ,使 用 8 个 可 能 向 量 作为 训练 样 例 , 它 成 功 地 学 会 
了 目标 函数 。 梯 度 下 降 的 反 向 传播 算法 产生 的 隐藏 层 表 示 是 什么 呢 ? 通 过 分 析 学 习 到 的 网 络 
对 于 8 个 可 能 输入 向 量 产生 的 隐藏 单元 的 值 , 可 以 看 出 学 到 的 编码 和 熟知 的 对 8 个 值 使 用 3 
位 标准 二 进 制 编码 相同 (也 就 是 000,001,010,……,111)。 图 4-7 显示 了 反 向 传播 算法 的 一 次 
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运行 中 计算 出 的 这 3 个 隐藏 单元 的 确切 值 。 

多 层 网 络 在 隐藏 层 自动 发 现 有 用 表示 的 能 力 是 ANN 学 习 的 一 个 关键 特性 。 与 那些 仅 限 
于 使 用 人 类 设计 者 提供 的 预定 义 特 征 的 学 习 方 法 相 比 , 它 提供 了 一 种 相当 重要 的 灵活 性 一 一 
允许 学 习 器 创造 出 设计 者 没有 明确 引入 的 特征 。 当 然 , 这 些 创 造 出 的 特征 一 定 是 网 络 输入 的 
sigmoid 单元 函数 可 以 计算 出 的 。 注 意 ,网 络 中 使 用 的 单元 层 越 多 ,就 可 以 创造 出 越 复杂 的 特 
征 。 第 4.7 节 要 讨论 的 人 有 验 识 别 应 用 提供 了 隐藏 单元 特征 的 另 一 个 例子 。 

为 了 增强 对 这 个 例子 中 反 向 传播 算法 操作 的 直观 理解 ,让 我 们 更 详细 地 分 析 梯 度 下 降 过 
程 中 的 具体 操作 2。 使 用 表 4-2 中 的 算法 训练 图 4-7 中 的 网 络 ,设置 初始 的 权 值 为 区 间 
( -0.1, 0.1) 中 的 随机 数 , 学 习 速 率 7 = 0.3, 没 有 权 冲 量 (如 ,a =0)。 使 用 其 他 的 学 习 速 率 和 
使 用 非 0 的 冲 量 得 到 的 结果 相似 。 图 4-7 中 显示 的 隐藏 单元 编码 是 在 执行 了 算法 的 外 层 训练 
TER 5000 次 后 得 到 的 (也 就 是 对 8 个 训练 样 例 的 每 一 个 迭代 5000 次 )。 然 而 ,吸引 我 们 注意 
的 大 多 数 权 值 变 化 发 生 在 前 2500 次 。 

我 们 可 以 描绘 出 输出 误差 的 平方 相对 梯度 下 降 搜索 步 数 的 函数 曲线 ,这 样 就 可 以 直接 观 
察 反 向 传播 算法 的 梯度 下 降 搜索 的 效果 。 它 显示 在 图 4-8 中 最 上 面 的 曲线 图 中 。 这 幅 图 的 8 
条 曲线 对 应 8 个 网 络 输出 ,每 一 条 曲线 都 显示 了 相应 的 网 络 输出 对 所 有 训练 样 例 的 误差 平方 
和 。 横 轴 表 示 反 向 传播 算法 的 最 外 层 迭 代 的 次 数 。 如 图 所 示 , 每 个 输出 的 误差 平方 和 随 着 梯 
度 下 降 而 下 降 , 某 些 单元 较 快 , 某 些 单元 较 慢 。 

隐藏 单元 表示 的 演变 过 程 可 以 在 图 4-8 的 第 二 幅 图 中 看 到 。 这 幅 图 显示 了 对 于 一 个 可 能 
的 输入 (这 幅 图 对 应 的 是 01000000) 网 络 计 算出 的 三 个 隐藏 单元 值 。 和 前 面 一 样 , 横 轴 表 示 训 
练 循环 的 次 数 。 如 图 所 示 , 这 个 网 络 在 收敛 到 如 图 4-7 中 给 出 的 最 终 的 编码 之 前 经 历 了 很 多 
不 同 的 编码 。 

最 后 ,图 4-8 中 的 第 3 幅 图 画 出 了 网 络 中 各 个 权 值 的 演变 过 程 。 这 幅 图 显示 了 连接 8 个 
输入 单元 (和 一 个 常量 偏 置 输入 (constant bias input)) A) 3 个 隐藏 单元 之 一 的 权 值 的 演变 过 
程 。 注 意 ,这 个 隐藏 单元 权 值 的 显著 变化 与 隐藏 层 编码 和 输出 误差 平方 的 显著 变化 一 致 .这 
里 收敛 到 接近 0 值 的 权 是 偏 置 权 woo 


4.6.5 泛 化 .过 度 拟 合 和 停止 判 据 


在 表 4-2 对 反 向 传播 算法 的 描述 中 ,没有 指定 算法 使 用 的 终止 条 件 。 终 止 权 值 更 新 循环 
的 合适 条 件 是 什么 呢 ? 很 明显 ,一 种 选择 是 继续 训练 直到 对 训练 样 例 的 误差 E 降低 至 某 个 预 
先 定 义 的 阐 值 之 下 。 事 实 上 ,这 不 是 一 个 好 的 策略 ,因为 反 向 传播 算法 容易 过 度 拟 合 训练 样 
例 ,降低 对 于 其 他 未 见 过 实例 的 泛 化 精度 。 

为 了 看 出 使 训练 数据 上 误差 最 小 化 的 危险 ,考虑 误差 E 是 如 何 随 着 权 值 迭代 次 数 变化 
的 。 图 4-9 显示 了 两 个 相当 典型 的 反 向 传播 算法 应 用 中 的 这 种 变化 。 首 先 考虑 图 中 上 上面- 幅 
曲线 图 。 两 条 曲线 中 较 低 的 一 条 显示 了 在 训练 集合 上 的 误差 E 随 着 梯度 下 降 迁 代 次 数 的 增 
加 而 单调 下 降 。 较 高 的 曲线 是 在 一 个 与 训练 样 例 不同 的 验证 集合 的 实例 上 测 到 的 误差 E 的 





”这 个 例子 的 源 代码 可 以 从 http: //www.cs.cmu. edu ~ tom/mlbook. html 得 到 。 
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情况 。 这 条 线 测量 了 网 络 的 泛 化 精度 (generalization accuracy ) 网 络 拟 合 训练 数据 外 的 实 


例 的 精度 。 


每 个 输出 单元 的 误差 平方 和 





0 500 1000 1500 2000 2500 


输入 到 一 个 隐藏 单 元 的 权 





0 500 1000 1500 2000 2500 


最 上 图 显示 了 随 着 训练 选 代 次 数 ( 轮 数 ) 的 增加 ,8 个 输入 的 误差 平方 和 的 演变 。 中 图 显示 了 对 于 输入 串 
“01000000” 的 隐藏 层 表示 的 演变 。 下 图 显示 了 3 个 隐藏 单元 之 一 的 权 值 演变 过 程 


图 4-8 学 习 8x3x8 网络 
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001 误差 相对 权 值 更 新 次 数 变化 曲线 ( 例 1 ) 


0.009 |. 训练 集合 的 误差 “ 
验证 集合 的 误差 + 
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误差 相对 权 值 更 新 次 数 变化 曲线 ( 例 2 ) 
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两 种 情况 下 ,在 训练 样 例 上 的 误差 E 都 单调 下 降 ,因为 梯度 下 降 的 目标 是 最 小 化 这 个 误差 。 对 于 单独 的 验证 集 
合 中 的 样 例 , 误 差 5 通常 先 下 降 , 然 后 误差 可 能 因为 过 度 拟 合 训练 样 例 而 上 升 。 最 有 可 能 正确 泛 化 到 未 见 过 数 
据 的 网 络 是 对 于 验证 集合 有 最 小 误差 的 网 络 。 注 意 在 第 二 幅 曲 线 图 中 ,必须 小 心 不 要 过 早 停 止 训练 ,因为 在 验 
证 集合 上 的 误差 在 选 代 到 850 次 时 开始 上 升 而 后 又 下 降 


图 4-9 ”两 个 不 同 机 器 人 感知 任务 的 误差 E 相对 权 值 更 新 次 数 的 变化 曲线 


注意 ,尽管 在 训练 样 例 上 的 误差 持续 下 降 , 但 在 验证 样 例 上 测量 到 的 误差 EO 先 下 降 , 然 
后 上 升 。 为 什么 会 发 生 这 种 现象 呢 ? 这 是 因为 这 些 权 值 拟 合 了 训练 样 例 的 “特异 性 ”( idiosyn- 
crasy) ,而 这 个 “特异 性 "对 于 样 例 的 一 般 分 布 没 有 代表 性 。4NN 中 大 量 的 权 值 参 数 为 拟 合 这 
样 的 “特异 性 "提供 了 很 大 的 自由 度 。 

为 什么 过 度 拟 合 往往 是 发 生 在 迭代 的 后 期 , 而 不 是 欠 代 的 早期 呢 ? 设想 网 络 的 权 值 是 被 
初始 化 为 小 随机 值 的 ,使 用 这 些 几乎 一 样 的 权 值 仅 能 描述 非常 平滑 的 决策 面 。 随 着 训练 的 进 
行 ,一 些 权 值 开始 增长 ,以 降低 在 训练 数据 上 的 误差 ,同时 学 习 到 的 决策 面 的 复杂 度 也 在 提高 。 
于 是 , 随 着 权 值 调整 迭代 次 数 的 增加 , 反 向 传播 算法 获得 的 假设 的 有 效 复杂 度 也 在 增加 。 如 果 
权 值 调整 先 代 次 数 足够 多 , 反 向 传播 算法 经 常会 产生 过 度 复 杂 的 决策 面 , 拟 合 了 训练 数据 中 的 
噪声 和 训练 样 例 中 没有 代表 性 的 特征 。 这 个 过 度 拟 合 问题 与 决策 树 学 习 中 的 过 度 拟 合 问题 相 


© EBRAR, IREX generalization accuracy 先 下 降 后 上 升 ,显然 这 里 的 generalization accuracy 应 为 error E)。 一 一 译 者 注 
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似 ( 见 第 3 章 )。 

有 了 几 种 技术 可 以 用 于 解决 反 向 传播 中 的 过 度 拟 合 问题 。 一 种 方法 被 称 为 权 值 衰减 
( weight decay) , 它 在 每 次 和 迭代 过 程 中 以 某 个 小 因子 降低 每 个 权 值 。 这 等 效 于 修改 节 的 定义 ， 
加 入 一 个 与 网 络 权 值 的 总 量 相应 的 惩罚 项 。 此 方法 的 动机 在 于 保持 权 值 较 小 ,从 而 使 学 习 过 
程 向 着 复杂 决策 面 的 反方 向 偏 置 。 

解决 过 度 拟 合 问题 的 一 个 最 成 功 的 方法 就 是 在 训练 数据 外 再 为 算法 提供 一 套 验证 数据 
(validation data )。 算 法 在 使 用 训练 集合 驱动 梯度 下 降 搜 索 的 同时 ,监视 对 于 这 个 验证 集合 
的 误差 。 从 本 质 上 讲 , 这 相当 于 允许 算法 本 身 画 出 图 4-9 中 显示 的 两 条 曲线 。 算 法 应 该 进行 
多 少 次 权 值 调整 迄 代 呢 ?显然 ,应 该 使 用 在 验证 集合 上 产生 最 小 误差 的 迭代 次 数 , 因 为 这 是 网 
络 性 能 对 于 未 见 过 实例 的 最 好 表征 。 在 这 种 方法 的 典型 实现 中 ,网 络 的 权 值 被 保留 两 份 拷贝 : 
一 份 用 来 训练 ,而 另 一 份 拷贝 作为 目前 为 止 性 能 最 好 的 权 ,衡量 的 标准 是 它们 对 于 验证 集合 的 
误差 。 一 旦 训练 到 的 权 值 在 验证 集合 上 的 误差 比 保存 的 权 值 的 误差 高 ,训练 就 被 终止 ,并且 返 
回 保存 的 权 值 作为 最 终 的 假设 。 当 这 个 过 程 被 应 用 到 图 4-9 中 最 上 图 的 情况 时 , 它 将 输出 在 
9100 次 迭代 后 网 络 得 到 的 权 值 。 图 4-9 的 第 二 幅 曲 线 图 显示 ,不 是 总 能 明显 确定 验证 集合 何 
时 达到 最 小 误差 。 在 这 幅 图 中 ,验证 集合 的 误差 先 下 降 , 然 后 上 升 ,然后 再 下 降 。 所 以 必须 注 
意 避 免 错 误 的 结论 :在 850 次 迭代 后 网 络 到 达 了 它 的 最 小 验证 集合 误差 。 

一 般 而 言 ,过 度 拟 合 问题 以 及 克服 它 的 方法 是 一 个 棘手 的 问题 。 上 面 的 交叉 验证 方法 在 
可 获得 额外 的 数据 提供 验证 集合 时 工作 得 最 好 。 然 而 遗憾 的 是 ,过 度 拟 合 的 问题 对 小 训练 集 
合 最 为 严重 。 在 这 种 情况 下 ,有 时 使 用 一 种 称 为 ^k-fold 交 又 验证 ”( -fold cross-validation) 的 
方法 ,这 种 方法 进行 次 不 同 的 交叉 验证 ,每 次 使 用 数据 的 不 同 分 割 作为 训练 集合 和 验证 集 
合 , 然 后 对 结果 进行 平均 。 在 这 种 方法 的 一 个 版 本 中 ,把 可 供 使 用 的 m 个 实例 分 割 成 个 不 
相交 的 子 集 , 每 个 子 集 有 m/% 个 实例。 然后 ,运行 次 交叉 验证 过 程 ,每 一 次 使 用 不 同 的 子 
集 作为 验证 集合 ,并 合并 其 他 的 子 集 作 为 训练 集合 。 于 是 ,每 一 个 样 例会 在 一 次 实验 中 被 用 作 
验证 集合 的 成 员 , 在 有 -1 次 实验 中 用 作 训 练 集合 的 成 员 。 在 每 次 试验 中 ,都 使 用 上 面 讨论 的 
交叉 验证 过 程 来 决定 在 验证 集合 上 取得 最 佳 性 能 的 迭代 次 数 i。 然 后 计算 这 些 i 的 均值 i, 最 
后 运行 一 次 反 向 传播 算法 ,训练 所 有 m 个 实例 并 迭代: 次 ,此 时 没有 验证 集合 。 这 个 过 程 与 
第 5 章 描述 的 基于 有 限 数 据 比较 两 种 学 习 方 法 的 过 程 很 相近 。 
4.7 举例 : 人 脸 识别 

为 了 说 明 反 向 传播 算法 应 用 中 的 一 些 实际 的 设计 问题 ,这 一 节 讨 论 把 这 个 算法 应 用 到 人 


脸 识 别 的 学 习 任务 。 这 一 节 用 来 产生 这 个 例子 的 所 有 图 像 数据 和 代码 都 可 以 从 以 下 网 址 得 到 
: http: 7www.cs.cmu.edu/ ~ tom/mlbook .html, 同时 还 有 如 何 使 用 这 些 代 码 的 完整 文档 。 


读者 可 以 自己 进行 试验 。 
4.7.1 任务 

这 里 的 学 习 任 务 是 对 不 同人 的 不 同 姿态 的 摄影 图 像 进行 分 类 。 我 们 收集 了 20 个 不 同 的 
人 的 摄影 图 像 , 每 个 人 大 约 有 32 张 图 像 ,对 应 这 个 人 不 同 的 表情 (快乐 , 诅 丧 ,愤怒 ,中 性 ) .他 


们 看 的 不 同方 向 ( 左 , 右 , 正 前 , 上) 和 他 们 是 否 戴 太 阳 镜 。 从 图 4-10 的 示例 图 像 中 可 以 看 到 ， 
人 后 面 的 背景 . 穿 的 衣服 和 人 脸 在 图 像 中 的 位 置 也 都 有 差异 。 我 们 共 收 集 了 624 幅 灰 度 图 像 ， 
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每 一 幅 的 分 辩 率 为 120x 128 ,图 像 的 每 个 像素 使 用 0( 黑 色 ) 到 255( 白 色 ) 的 灰 度 值 描述 。 


30 x 32 分 辨 率 的 输入 图 像 


Bu 


左 右 上 
mm tt has a 


对 每 个 训练 样 例 选 代 1 次 后 的 网 络 权 值 








前 


— 半日 me oe 


对 每 个 训练 样 例 迭 代 100 次 后 的 网 络 权 值 


这 里 使 用 人 脸 的 灰 度 图 像 ( 见 最 上 一 行 ) 训 练 一 个 960 x 3 x 4 的 网 络 , 来 预测 一 个 人 是 在 向 左 ,向 右 、 向 前 还 是 
向 上 看 。 在 使 用 了 260 幅 这 样 的 图 像 训练 后 ,这 个 网 络 对 于 独立 的 验证 集合 达到 了 90% 的 精度 。 图 中 也 显示 
了 使 用 训练 样 例 迭 代 1 次 后 和 迭代 100 次 后 的 网 络 权 值 。 每 个 输出 单元 ( 左 ,前 , 右 ,上 ) 有 四 个 权 值 ,用 暗 ( 负 ) 
和 明 ( 正 ) 的 方块 显示 。 最 左 侧 的 方块 对 应 权 wo, 它 决定 单元 的 阔 值 ,右面 的 三 个 方块 对 应 从 三 个 隐藏 单元 输 
入 的 权 。 图 中 也 显示 了 每 个 像素 输入 到 每 个 隐藏 单元 的 权 值 被 画 在 对 应 像素 的 位 置 上 


图 4-10 ”学 习 识别 人 脸 朝 向 的 人 工 神经 网 络 


从 这 些 图 像 数据 中 可 以 学 习 很 多 不 同 的 目标 函数 。 例 如 ,我 们 可 以 训练 一 个 ANN ,使 输 
人 给 定 的 一 幅 图 像 时 输出 这 个 人 的 惟一 标识 (identity)、 脸 的 朝向 性别, 是否 带 太阳 镜 等 。 所 
有 这 些 目标 函数 可 以 以 很 高 的 精度 从 这 些 数据 中 学 习 到 ,我 们 鼓励 读者 自行 试验 。 在 本 节 后 
面 的 部 分 ,我们 考虑 一 个 特定 的 任务 :学 习 图 像 中 人 脸 的 朝向 ( 左 , 右 , 正 前 , 朝 上 )。 


4.7.2 设计 要 素 


应 用 反 向 传播 算法 到 一 个 给 定 任务 时 ,必须 决定 几 个 设计 要 素 。 下 面 归纳 出 了 学 习 人 脸 
朝向 这 个 学 习 任 务 的 一 些 设计 要 素 。 尽 管 我 们 没有 打算 去 选择 精确 的 最 优 设计 ,但 这 里 描述 
的 设计 对 目标 函数 学 习 得 相当 好 。 在 训练 了 260 幅 图 像样 例 之 后 ,对 于 独立 测试 集合 的 精度 
达到 90% 。 相 对 而 言 ,如 果 随 机 猜测 四 个 脸 朝 向 中 的 一 个 ,只 能 达到 25% 的 正确 率 。 
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输入 编码 ”已 经 知道 ANN 的 输入 必然 是 图 像 的 某 种 表示 ,那么 设计 的 关键 是 如 何 编码 
这 幅 图 像 。 例 如 我 们 可 以 对 图 像 进行 预 处 理 ,来 分 解 出 边缘 .亮度 一 致 的 区 域 或 其 他 局 部 图 像 
特征 ,然后 把 这 些 特征 输入 网 络 。 这 种 设计 的 一 个 问题 是 会 导致 每 幅 图 像 有 不 同 数量 的 特征 
参数 (例如 ,边缘 的 数量 ) ,然而 ANN 具有 固定 数量 的 输入 单元 。 在 此 ,我 们 的 设计 是 把 图 像 
编码 成 固定 的 30 x 32 像素 的 亮度 值 ,每 个 像素 对 应 一 个 网 络 输入 。 并 且 把 范围 是 0 到 255 的 
亮度 值 按 比例 线性 缩放 到 0 到 1 的 区 间 内 ,以 使 网 络 输入 与 隐藏 单元 和 输出 单元 在 同样 的 区 
间 取 值 。 实 际 上 ,这 里 的 30 x 32 像素 图 像 就 是 原来 120 x 128 像素 的 图 像 的 低 分 辨 率 概括 ,每 
个 低 分 辨 率 像素 根据 对 应 的 若干 高 分 辩 率 像素 亮度 的 均值 计算 得 到 。 使 用 这 样 的 低 分 辩 率 图 
像 ,把 输入 个 数 和 权 值 的 数量 减少 到 了 一 个 更 易于 处 理 的 规模 ,从 而 降低 了 运算 要 求 ,但 同时 
也 保留 了 足够 的 分 辩 率 以 正确 分 类 图 像 。 回 忆 在 图 4-1 中 ,ALVINN 系统 使 用 了 相似 的 低 分 
辨 率 图 像 作为 网 络 的 输入 。 一 个 有 趣 的 差别 是 ,在 ALVINN 中 ,每 一 个 低 分 辩 率 像素 的 亮度 
等 于 从 高 分 辨 率 图 像 对 应 的 区 域 中 随机 取 一 个 像素 的 亮度 ,而 不 是 取 这 个 区 域 中 所 有 像素 况 
度 的 均值 。 其 动机 是 为 了 明显 地 减少 从 高 分 辩 率 图 像 产 生 低 分 辩 率 图 像 所 需 的 运算 量 。 这 个 
效率 对 于 ALVINN 系统 是 特别 重要 的 ,因为 在 自动 驾驶 车 辆 的 过 程 中 ,ALVINN 系统 的 网 络 
必须 在 每 秒 钟 处 理 很 多 幅 图 像 。 

输出 编码 ”ANN 必须 输出 四 个 值 中 的 一 个 来 表示 输入 图 像 中 人 脸 的 朝向 ( 左 , 右 ,上 ， 
前 )。 注 意 我 们 可 以 使 用 单一 的 输出 单元 来 编码 这 四 种 情况 的 分 类 ,例如 ,指定 输出 值 0.2、 
0.4.0.6 和 0.8 来 编码 这 四 个 可 能 值 。 不 过 这 里 我 们 使 用 4 个 不 同 的 输出 单元 ,每 一 个 对 应 
四 种 可 能 朝向 中 的 一 种 , 取 具 有 最 高 值 的 输出 作为 网 络 的 预测 值 。 这 种 方法 经 常 被 称 为 n 取 
1(1-of-n) 输 出 编码 。 选 择 n 取 1 输出 编码 而 不 用 单个 单元 有 两 个 原因 。 第 一 ,这 为 网 络 表示 
目标 函数 提供 了 更 大 的 自由 度 ( 即 在 输出 层 单元 中 有 n 倍 的 可 用 权 值 )。 第 二 ,在 取 1 编码 
中 ,最 高 值 输出 和 次 高 值 输出 间 的 差异 可 以 作为 对 网 络 预测 的 置信 度 (不 明确 的 分 类 可 能 导致 
结果 相近 或 相等 )。 进 一 步 的 设计 问题 是 “这 4 个 输出 单元 的 目标 值 应 该 是 什么 ?" 一 个 显 而 易 
见 的 办 法 是 用 4 个 目标 值 (1,0,0,0) 来 编码 脸 朝 向 左 ,《0,1,0,0) 来 编码 脸 朝 向 正 前 ,依次 类 


向 量 。 避 免 使 用 0 和 1 作为 目标 值 的 原因 是 sigmoid 单元 对 于 有 限 权 值 不 能 产生 这 样 的 输出 。 
如 果 我 们 企图 训练 网 络 来 准确 匹配 目标 值 0 和 1 ,梯度 下 降 将 会 迫使 权 值 无 限 增长 。 而 值 0.1 
和 0.9 是 sigmoid 单元 在 有 限 权 值 情况 下 可 以 完成 的 。 

网 络 结构 图 “正如 前 面 所 描述 的 , 反 向 传播 算法 可 以 被 应 用 到 任何 有 向 无 环 sigmoid 单 
元 的 网 络 , 所 以 ,我 们 面临 的 另 一 设计 问题 是 ,这 个 网 络 包含 多 少 个 单元 以 及 如 何 互 连 。 最 普 
遍 的 一 种 网 络 结构 是 分 层 网 络 ,一 层 的 每 个 单元 向 前 连接 到 下 一 层 的 每 一 个 单元 。 目 前 的 设 
计 选 择 了 这 样 的 标准 结构 ,使 用 两 层 sigmoid 单元 (一 个 隐藏 层 和 一 个 输出 层 )。 使 用 一 或 两 
层 sigmoid 单元 是 很 普遍 的 ,偶尔 使 用 三 层 。 使 用 更 多 的 层 是 不 常见 的 ， 因为 训练 时 间 会 变 得 
很 长 ,而 且 三 层 sigmoid 单元 的 网 络 已 经 能 够 表示 数量 相当 大 的 目标 函数 ( 见 第 4.6.2 T). 我 
们 已 经 确定 选择 有 一 个 隐藏 层 的 分 层 前 馈 网 络 ,那么 其 中 应 该 包含 多 少 个 隐藏 单 元 呢 ? 在 图 
4-10 的 结果 中 , 仅 使 用 了 三 个 隐藏 单元 ,就 达到 了 对 测试 集合 90% 的 精度 。 在 另 一 个 使 用 30 
个 隐藏 单元 的 实验 中 ,得 到 的 精度 提高 了 一 到 两 个 百分点 。 尽管 这 两 个 实验 得 到 的 泛 化 精度 
相差 很 小 ,但 后 一 个 试验 明显 需要 更 多 的 训练 时 间 。 使 用 260 幅 图 像 的 训练 样 例 ,30 个 隐藏 
单元 的 网 络 在 Sun Sparc5 工作 站 上 的 训练 时 间 大 约 是 一 个 小 时 。 相对 而 言 ,三 个 隐藏 单元 的 
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网 络 大 约 是 5 分 钟 。 人 们 已 经 发 现在 很 多 应 用 中 需要 某 个 最 小 数量 的 隐藏 单元 来 精确 地 学 习 
目标 函数 ,并 且 超 过 这 个 数量 的 多 余 的 隐藏 单元 不 会 显著 地 提高 泛 化 精度 ,前 提 条 件 是 使 用 交 
又 验证 方法 来 决定 应 该 进行 多 少 次 梯度 下 降 迭 代 。 如 果 没有 使 用 交叉 验证 ,那么 增加 隐藏 单 
元 数量 经 常会 增加 过 度 拟 合 训 练 数据 的 倾向 ,从 而 降低 泛 化 精度 。 

学 习 算 法 的 其 他 参数 ”在 这 个 实验 中 ,学 习 速 率 7 被 设 定 为 0.3, 冲 量 a 被 设 定 为 0.3。 
赋 子 这 两 个 参数 更 低 的 值 会 产生 大 体 相当 的 泛 化 精度 ,但 需要 更 长 的 训练 时 间 。 如 果 这 两 个 
值 被 设 定 得 太 高 ,训练 将 不 能 收敛 到 一 个 具有 可 接受 误差 (在 训练 集合 上 ) 的 网 络 。 在 整个 试 
验 中 我 们 使 用 完全 的 梯度 下 降 ( 和 表 4-2 算法 中 随机 近似 的 梯度 下 降 不 同 )。 输 出 单元 的 网 络 
权 值 被 初始 化 为 小 的 随机 值 。 然 而 输入 单元 的 权 值 被 初始 化 为 0, 因 为 这 样 可 以 使 学 习 到 的 
权 值 的 可 视 化 ( 见 图 4-10) 更 易于 理解 ,而 对 汉化 精度 没有 明显 的 影响 。 训 练 的 迭代 次 数 的 选 
择 可 以 通过 分 割 可 用 的 数据 为 训练 集合 和 独立 的 验证 集合 来 实现 。 梯 度 下 降 方法 被 用 于 最 小 
化 训练 集合 上 的 误差 ,并 且 每 隔 50 次 梯度 下 降 迭 代 根 据 验证 集合 评估 一 次 网 络 的 性 能 。 最 终 
选择 的 网 络 是 对 验证 集合 精度 最 高 的 网 络 。 可 以 参见 第 4.6.5 节 得 到 关于 这 个 过 程 的 解释 和 
依据 。 最 终 报告 的 精度 (对 于 图 4-10 中 的 网 络 也 就 是 90% ) 是 在 没有 对 训练 产生 任何 影响 的 
第 三 个 集合 一 一 测试 集合 上 测量 得 到 的 。 


4.7.3 学 习 到 的 隐藏 层 表示 


有 必要 分 析 一 下 网 络 中 学 习 得 到 的 2899 个 2 权 值 。 图 4-10 描绘 了 对 所 有 训练 样 例 进行 
一 次 权 值 更 新 后 的 每 个 权 值 和 100 次 更 新 后 的 权 值 。 

为 了 理解 这 些 图 像 , 先 考虑 图 中 紧 挨 人 脸 图 像 下 的 四 个 矩形 。 每 一 个 矩形 描绘 了 网 络 中 
四 个 输出 单元 (编码 了 左前 、 右 和 上 ) 中 的 一 个 权 值 。 每 个 矩形 中 的 四 个 小 方形 表示 和 这 个 输 
出 单元 关联 的 四 个 权 值 一 一 最 左边 是 权 wo, 它 决定 单元 的 阐 值 ;然后 是 连接 三 个 隐藏 单元 到 
这 个 输出 的 三 个 权 值 。 方 形 的 亮度 表示 权 值 , 亮 白 表示 较 大 的 正 权 值 ,暗黑 表示 较 大 的 负 权 
值 , 介 于 中 间 的 灰色 阴影 表示 中 等 的 权 值 。 例 如 , 标 为 上 ”的 输出 单元 的 阔 值 权 wo 接近 0, 从 
第 一 个 隐藏 单 元 来 的 权 值 为 较 大 的 正 值 ,从 第 二 个 隐藏 单元 来 的 权 值 为 较 大 的 负 值 。 

隐藏 单元 的 权 值 显示 在 输出 单元 的 下 边 。 回 忆 一 下 ,每 个 隐藏 单元 接受 所 有 30 x 32 MR 
素 输入 。 与 这 些 输入 关联 的 30 x 32 个 权 值 被 显示 在 它们 对 应 的 像素 的 位 置 ( 阔 值 权 wo 被 重 
登 显示 在 图 像 阵列 的 左上 角 )。 非 常 有 趣 的 是 ,可 以 看 到 权 的 取 值 通常 对 人 脸 和 身体 出 现 的 图 
像 区 域 特别 敏感 。 

针对 每 一 个 训练 样 例 ,梯度 下 降 和 迭代 100 次 后 的 网 络 权 值 显示 在 图 的 下 部 。 注 意 ,最 左边 
的 隐藏 单元 的 权 值 和 迭代 一 次 时 的 权 值 有 很 大 不 同 , 男 两 个 隐藏 单元 的 权 值 也 有 所 变化 。 现 
在 可 以 分 析 一 下 这 个 最 终 权 值 集 合 中 的 编码 。 例 如 ,假定 输出 单元 指出 一 个 人 是 在 向 右 看 。 
这 个 单元 与 第 二 个 隐藏 单元 间 具 有 一 个 较 大 的 正 权 值 ,与 第 三 个 隐藏 单 元 间 具 有 一 个 大 的 负 
权 值 。 分 析 这 两 个 隐藏 单元 的 权 值 ,容易 看 到 如 果 一 个 人 的 脸 是 转向 他 的 右面 (也 就 是 我 们 的 
左面 ) ,那么 他 的 亮度 高 的 皮肤 会 大 致 与 这 个 隐藏 单元 中 的 较 大 正 值 对 齐 , 同 时 他 的 亮度 低 的 
头发 会 大 致 与 负 权 值 对 齐 , 这 导致 此 单元 输出 一 个 较 大 的 值 。 同 样 的 图 像 会 使 第 三 个 隐藏 单 





© 2899 = 输入 单元 与 三 个 隐 单 元 间 连 接 对 应 的 权 (960 x 3) + 三 个 隐 单 元 与 四 个 输出 单元 间 连接 对 应 的 权 (3 x 4) + 
三 个 隐 单 元 和 四 个 输出 单元 的 wo 权 (3 + 4)。 
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元 输出 一 个 接近 0 的 值 ,因为 亮度 高 的 脸 部 倾向 于 与 大 的 负 权 对 齐 。 
4.8 ”人工 神经 网 络 的 高 级 课题 


4.8.1 其 他 可 选 的 误差 函数 


正如 前 面 所 指出 的 ,只 要 函数 E 相对 参数 化 的 假设 空间 可 微 ,那么 就 可 以 执行 梯度 下 降 。 
虽然 基本 的 反 向 传播 算法 以 网 络 误差 平方 和 的 形式 定义 已 ,但 也 有 人 提出 其 他 的 定义 ,以 便 
把 其 他 的 约束 引入 权 值 调整 法 则 。 如 果 定 义 了 一 个 新 的 已 ,那么 就 必须 推导 出 一 个 新 的 权 值 
调整 法 则 供 梯度 下 降 使 用 。E 的 其 他 可 选 定义 包括 : 
o 为 权 值 增加 一 个 惩罚 项 : 如 同 前 面 讨 论 的 ,我 们 可 以 把 一 个 随 着 权 向 量 幅度 增长 的 项 
加 入 到 E 中 。 这 导致 梯度 下 降 搜寻 较 小 的 权 值 向 量 ,从 而 减 小 过 度 拟 合 的 风险 。 一 种 
TRIER EDS SE E: 
E(w) => 2 ` 5 (tha ~ Ora)? + yw? 


dE DEE outputs 


这 得 到 了 一 个 与 反 向 传播 法 则 基本 一 致 的 权 更 新 法 则 ,只 是 在 每 次 迭代 时 为 每 个 权 乘 以 常 
量 (1 -27ym)。 因 此 选择 这 种 E 的 定义 和 使 用 权 衰减 策略 ( 见 练习 4.10) 是 等 价 的 。 

o 对 误差 增加 一 项 目标 函数 的 斜率 (slope) 或 导数 : 某 些 情况 下 ,训练 信息 中 不 仅 有 目标 
值 ,而 且 还 有 关于 目标 函数 的 导数 。 例 如 , Simard et al. (1992) 描 述 了 一 个 字符 识别 的 
应 用 ,在 这 个 应 用 中 使 用 了 一 些 训练 导数 来 强迫 网 络 学 习 那 些 在 图 像 平 移 中 不 变 的 字 
符 识别 函数 。Mitchell and Thrun(1993) 描 述 了 根据 学 习 器 以 前 的 知识 计算 训练 导数 的 
方法 。 在 这 两 个 系统 中 (在 第 12 章 中 描述 ) ,误差 函数 都 被 增加 了 一 项 ,用 来 衡量 这 些 
训练 导数 和 网 络 的 实际 导数 间 的 差异 。 这 样 的 误差 函数 的 一 个 例子 是 : 

E(w)=72 > | Ca - ou) + “a (Si - a 


2 ie DEE outputs 


这 里 , xh, 表 示 对 于 训练 实例 d 的 第 j 个 输入 单元 的 值 。 于 是 2 是 描述 目标 输出 值 i 








应 该 如 何 随 输入 值 ch 变化 的 训练 导数 。 与 此 类 化 Se RRR EA 网 络 的 对 应 导 


数 。 常 数 py 决定 匹配 训练 值 相 对 于 匹配 训练 导数 的 权 值 。 

© 使 网 络 对 目标 值 的 交叉 炉 (cross entropy) 最 小 化 : 考虑 学 习 一 个 概率 函数 , 比如 根据 这 
个 申请 者 的 年 龄 和 存款 余额 ,预测 一 个 借贷 申请 者 是 否 会 还 贷 。 尽 管 这 里 的 训练 样 例 
仅 提 供 了 布尔 型 的 目标 值 (要 么 是 1, 要 么 是 0, 根 据 这 个 申请 者 是 否 还 贷 ) ,但 基本 的 目 
标 函 数 最 好 以 申请 者 还 贷 的 概率 的 形式 输出 ,而 不 是 对 每 个 输入 实例 都 企图 输出 明确 的 
0 或 1 值 。 在 这 种 情况 下 ,我 们 希望 网 络 输出 一 个 概率 估计 ,可 以 证 明 最 小 化 交叉 炉 (eross 
entropy) 的 网 络 可 以 给 出 最 好 的 (也 就 是 极 大 似 然 ) 概 率 估计 ,交叉 炳 的 定义 如 下 : 


一 2 talogos + (1 一 tz)log(1 一 oa) 
这 里 ,ov 是 网 络 对 于 训练 样 例 d 输出 的 概率 估计 , to 是 对 于 训练 样 例 d 的 目标 值 (0 或 


1U)。 第 6 章 讨论 了 何 时 及 为 什么 最 可 能 的 网 络 假设 就 是 使 交叉 焙 最 小 化 的 假设 ,并 推 
导 了 相应 的 sigmoid 单元 的 梯度 下 降 权 值 调整 法 则 。 第 6 章 也 描述 了 在 什么 条 件 下 最 
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可 能 的 假设 就 是 使 误差 平方 和 最 小 化 的 假设 。 

o 改变 有 效 误差 沪 数 也 可 以 通过 权 值 共享 (weight sharing) 来 完成 ,也 就 是 把 与 不 同 单元 
或 输入 相关 联 的 权 “ 捆 绑 在 一 起 " :这 里 的 想法 是 强迫 不 同 的 网 络 权 值 取 一 致 的 值 ,通常 
是 为 了 实施 人 类 设计 者 事先 知道 的 某 个 约束 。 例 如 , Waibel et al. (1989) 和 Lang et al. 
(1990) 描 述 了 神经 网 络 在 语音 识别 方面 的 一 个 应 用 ,其 中 网 络 的 输入 是 在 一 个 144 E 
秒 的 时 间 窗 中 不 同时 间 的 语音 频率 分 量 。 在 这 个 应 用 中 可 以 做 的 一 个 假定 是 :一 个 特 
定语 音 (例如 “eee” ) 的 频率 分 量 的 识别 是 与 这 个 语音 在 144 毫秒 时 间 窗 中 出 现 的 确切 
时 间 无 关 的 。 为 了 实施 这 个 约束 ,必须 强迫 接收 这 个 时 间 窗 不 同 部 分 的 不 同 单元 共享 
权 值 。 这 样 做 的 效果 是 约束 了 假设 的 潜在 空间 ,从 而 减 小 了 过 度 拟 合 的 风险 ,提高 了 准 
确 泛 化 到 未 见 过 的 情形 的 可 能 性 。 权 值 共享 通常 这 样 实现 :首先 在 共享 权 值 的 每 个 单 
元 分 别 更 新 各 个 权 值 ,然后 取 这 些 权 值 的 平均 ,再 用 这 个 平均 值 替换 每 个 需要 共享 的 权 
值 。 这 个 过 程 的 结果 是 被 共享 的 权 值 比 没有 被 共享 的 权 值 更 有 效 地 适应 一 个 不 同 的 误 
ERR, 


4.8.2 其 他 可 选 的 误差 最 小 化 过 程 


虽然 梯度 下 降 是 搜寻 使 误差 函数 最 小 化 的 假设 的 最 通用 的 方法 之 一 ,但 它 不 总 是 最 高 效 
的 。 当 训练 复杂 的 网 络 时 ,不 难 见 到 反 向 传播 算法 要 进行 上 万 次 的 权 值 更 新 迭代 的 情形 。 由 
于 这 个 原因 ,人 们 探索 并 提出 了 很 多 其 他 的 权 值 优 化 算法 。 为 了 领会 其 他 可 能 的 方法 ,我 们 不 
妨 把 权 值 更 新 方法 看 作 是 要 决定 这 样 两 个 问题 :选择 一 个 改变 当前 权 值 向 量 的 方向 ;选择 要 移 
动 的 距离 。 在 反 向 传播 算法 中 ,这 个 方向 是 通过 取 梯 度 的 负 值 来 选择 的 ,距离 是 通过 常量 的 学 
习 速 率 7 决定 的 。 

一 种 被 称 为 “ 线 搜索 ”(line search) 的 优化 方法 采用 了 不 同 的 方法 选择 权 值 更 新 的 距离 。 
确切 地 讲 , 每 当选 定 了 一 条 确定 权 值 更 新 方向 的 路 线 ,那么 权 更 新 的 距离 是 通过 沿 这 条 线 寻 找 
误差 函数 的 最 小 值 来 选择 的 。 注 意 这 可 能 导致 很 大 幅度 也 可 能 是 很 小 幅度 的 权 值 更 新 ,要 看 
沿 这 条 线 的 最 小 误差 点 的 位 置 。 另 一 种 方法 是 根据 “ 线 搜索 ”的 思想 建立 的 ,被 称 为 共 本 梯度 
(conjugate gradient) 法 。 这 种 方法 进行 一 系列 线 搜索 来 搜索 误差 曲面 的 最 小 值 。 这 一 系列 搜 
索 的 第 一 步 仍然 使 用 梯度 的 反方 向 。 在 后 来 的 每 一 步 中 ,选择 使 误差 梯度 分 量 刚好 为 0 并 保 
持 为 0 的 方向 。 

虽然 其 他 的 误差 最 小 化 方法 提高 了 训练 网 络 的 效率 ,但 像 共 固 梯 度 这 样 的 方法 则 对 最 终 
网 络 的 泛 化 误差 没有 明显 的 影响 。 对 最 终 误差 惟一 可 能 的 影响 是 ,不 同 的 误差 最 小 化 过 程 会 
陷入 不 同 的 局 部 极 小 值 。Bishop(1996) 包 含 了 关于 训练 网 络 的 几 种 参数 优化 方法 的 一 般 性 讨 
论 。 


4.8.3 递归 网 络 


直到 现在 我 们 考虑 的 只 是 有 向 无 环 的 网 络 拓扑 结构 。 递 归 网 络 ( Recurrent Networks) 是 
有 如 下 特征 的 人 工 神经 网 络 : 适 用 于 时 序数 据 ; 使 用 网 络 单元 在 时 间 i 的 输出 作为 其 他 单元 在 
时 间 1 + 1 的 输入 。 以 这 种 方式 ,递归 网 络 支持 在 网 络 中 使 用 某 种 形式 的 有 向 环 (directed cy- 
cle)。 为 了 演示 递归 网 络 ,考虑 一 个 时 序 预测 任务 一 一 根据 当天 的 经 济 指标 x( ,预测 下 一 天 
的 股票 平均 市 值 y(t: + 1)。 给 定 了 这 样 的 时 序数 据 , 一 个 显而易见 的 办 法 是 根据 输入 值 x (1) 
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SR — NR A Ay + 1)。 一 个 这 样 的 网 络 显示 在 图 4-11a Ho 
这 种 网 络 的 一 个 限制 是 仅 依赖 x (4) 作 been 

出 对 y(t+1) 预 测 ,而 不 能 捕 提 y (0 + 1) Rt x 

的 以 前 值 的 依赖 性 , 而 这 可 能 是 必需 的 。 例 Say 

如 ,明天 的 股票 平均 市 值 可 能 依赖 于 今天 的 

经 济 指标 和 昨天 的 经 济 指标 的 差异 。 当 然 ， 。 w 

我 们 可 以 通过 把 x (41) 和 x (2 - 1) 都 作为 前 aama 

馈 网 络 的 输入 来 弥补 这 个 不 足 。 但 是 如 果 我 

们 希望 这 个 网 络 预测 y + 1) 时 考虑 任意 过 hyery 

去 的 时 间 窗 内 的 信息 呢 ? 那么 就 需要 用 不 同 

的 解决 方案 了 。 图 4-11b 显示 的 递归 网 络 提 

供 了 这 样 一 个 的 解决 方案 。 这 里 我 们 向 隐藏 

层 加 了 一 个 新 的 单元 b 和 新 的 输入 单元 < 

(1)。c(4) 的 值 被 定义 为 单元 5 在 时 间 1 -1 xo 

的 值 ;也 就 是 说 ,网 络 在 某 一 个 时 间 步 (time 

step) 的 输入 值 c( 1 拷贝 自 单元 5 在 前 一 时 

间 步 的 值 。 注 意 ,这 实现 了 一 种 递归 关系 ,其 We) ete 

中 6 表示 关于 网 络 输入 的 历史 信息 。 因 为 6 

既 依 赖 于 (14) 又 依赖 于 c(t), FELA b 可 能 概 

括 了 以 前 任意 时 间距 离 的 x 值 。 很 多 其 他 的 

网 络 拓扑 也 可 以 用 来 表示 递归 网 络 。 例 如 ， 











xX(1~2) c(t-2) 


我 们 可 以 在 输入 和 单元 b 间 插 入 若干 层 单 oc) 按时 间 展 开 的 递归 网 络 
元 ,也 可 以 在 加 入 单元 b 和 输入 单元 c 的 地 图 4.11 递归 网 络 
方 再 并 行 插入 几 个 单元 。 i 


如 何 训练 这 样 的 递归 网 络 呢 ? 递归 网 络 有 多 种 变 体 , 因 此 人 们 也 分 别提 出 了 不 同 的 训练 
方法 (例如 ,参见 Jordan 1986、Elman 1990, Mozer 1995, Williams & Zipser 1995)。 有 趣 的 是 ， 
像 图 4-11b 那 样 的 递归 网 络 可 以 使 用 反 向 传播 算法 的 简单 变 体 来 训练 。 为 了 理解 如 何 实施 ， 
图 4-11c 显 示 了 递归 网 络 按照 时 间 展开 的 数据 流 。 这 里 我 们 把 递归 网 络 拷贝 成 几 份 , 用 不 同 拷 
贝 间 的 连接 蔡 换 掉 反馈 环 。 注 意 ,这 个 大 的 网 络 不 再 包含 回路 。 所 以 展开 网 络 的 权 值 可 以 直 
接 使 用 反 向 传播 算法 来 训练 。 当 然 实 践 中 我 们 希望 仅 保留 一 份 递归 网 络 和 权 值 集合 的 拷贝 。 
所 以 ,在 训练 了 展开 的 网 络 后 ,可 以 取 不 同 拷贝 中 权 值 wj 的 平均 值 作为 最 终 网 络 的 对 应 的 权 
值 wj;。Mozer(1995) 非 常 详细 地 描述 了 这 个 训练 过 程 。 实 践 中 ,递归 网 络 比 没有 有 反馈 环 的 网 
络 更 难以 训练 , 泛 化 的 可 靠 性 也 不 如 后 者 。 然 而 它们 仍 因 较 强 的 表征 力 而 保持 着 重要 性 。 


4.8.4 动态 修改 网 络 结构 


直到 现在 ,我们 考虑 的 神经 网 络 学 习 问 题 是 调整 一 个 固定 网 络 结构 中 的 权 值 。 为 了 改善 
泛 化 精度 和 训练 效率 ,人 们 提出 了 很 多 动态 增长 或 压缩 网 络 单元 和 单元 间 连 接 数 量 的 方法 。 

一 种 想法 是 从 一 个 不 包含 隐藏 单元 的 网 络 开始 ,然后 根据 需要 增加 隐藏 单元 来 增长 网 络 ， 
直到 训练 误差 下 降 到 某 个 可 接受 的 水 平 。 级 联 相关 (CASCADE-CORRELATION) 算 法 (Fahlman 
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& Lebiere 1990) 就 是 这 样 一 种 算法 。 级 联 相关 算法 从 创建 一 个 没有 隐藏 单元 的 网 络 开始 。 
例如 ,对 于 我 们 的 人 脸 朝 向 的 学 习 任务 , 它 会 建立 一 个 仅 包 含 四 个 输出 单元 全 连接 到 30 x 32 
个 输入 结 点 的 网 络 。 在 这 个 网 络 被 训练 了 一 段 时 间 后 ,我 们 可 以 很 容易 地 发 现 还 有 较 大 的 残 
留 误 差 ,因为 事实 上 这 个 目标 函数 不 可 能 被 一 个 单 层 结构 的 网 络 理想 地 表示 。 在 这 种 情况 下 ， 
算法 增加 一 个 隐藏 单元 ,选择 它 的 权 值 使 这 个 隐藏 单元 的 值 和 整个 网 络 的 残留 误差 的 相关 性 
最 大 化 。 现 在 一 个 新 的 单元 被 安装 进 了 网 络 , 它 的 权 值 保持 不 变 , 并 且 从 这 个 新 单元 到 每 一 个 
输出 单元 间 增 加 连接 。 重 复 这 个 过 程 。 原 始 的 权 值 被 再 次 训练 (保持 隐藏 单元 的 权 值 不 变 )， 
检查 残留 误差 ,如果 残留 误差 还 高 于 姜 值 就 加 和 第 二 个 隐藏 单元 。 每 当 加 入 一 个 新 的 隐藏 单 
元 , 它 的 输入 包括 所 有 原始 的 网 络 输入 和 已 经 存在 的 隐藏 单元 的 输出 。 网 络 以 这 种 方式 增长 ， 
积聚 隐藏 单元 ,直到 网 络 的 残余 误差 下 降 到 某 个 可 接受 的 水 平 。Fahlman & Lebiere(1990) 报 
告 了 级 联 相 关 算 法 显著 减少 训练 时 间 的 例子 ,原因 是 每 一 步 仅 有 一 层 网 络 在 被 训练 。 这 个 算 
法 的 一 个 实际 困难 是 因为 算法 可 以 无 限制 地 增加 单元 , 它 就 很 容易 过 度 拟 合 训练 数据 ,所 以 必 
须 采取 避免 过 度 拟 合 的 预防 措施 。 

动态 修改 网 络 结构 的 第 二 个 想法 是 使 用 相反 的 途径 。 不 再 从 可 能 的 最 简单 网 络 开始 增加 
复杂 性 ,而 是 从 一 个 复杂 的 网 络 开始 修剪 掉 某 些 无 关 紧 要 的 连接 。 判 断 某 个 权 是 否 无 关 紧 要 
的 一 种 方法 是 看 它 的 值 是 否 接 近 0。 第 二 种 看 来 在 实践 中 更 加 成 功 的 方法 是 考虑 这 个 权 值 的 
一 个 小 的 变化 对 误差 的 影响 。 变 化 w 对 EE 的 影响 (也 就 是 5 世 ) 可 以 被 看 作 衡量 这 个 连接 
的 显著 性 (salience) 的 尺度 。LeCun et al.(1990) 描 述 了 一 个 网 络 被 训练 的 过 程 ,最 不 显著 的 连 
接 被 拆除 ,重复 这 个 过 程 ,直到 遇 到 某 个 终止 条 件 为止 。 他 们 称 这 种 方法 为 “最 优 脑 损伤 ”(op- 
timal brain damage) 法 ,因为 每 一 步 算 法 都 试图 去 除 最 没有 用 的 连接 。 他 们 报告 ,在 一 个 字符 
识别 应 用 中 ,这 种 方法 将 一 个 大 的 网 络 中 权 值 减少 到 四 分 之 一 ,对 泛 化 精度 有 微小 的 改善 ,并 
且 大 大 改善 了 后 来 的 训练 效率 。 

一 般 而 言 ,动态 修改 网 络 结构 的 方法 已 经 取得 了 一 些 成 功 ,但 也 有 不 足 。 这 种 方法 是 否 能 
稳定 地 提高 反 向 传播 算法 的 泛 化 精度 还 有 待 研究 。 然 而 已 经 证 明 在 某 些 情形 下 它 可 以 显著 地 
降低 训练 时 间 。 


4.9 小 结 和 补充 读物 


本 章 的 要 点 包括 ; 

© 人 工 神经 网 络 学 习 为 学 习 实数 值 和 向 量 值 函数 提供 了 一 种 实际 的 方法 ,对 于 连续 的 和 
离散 值 的 属性 都 可 以 使 用 ,并 且 对 训练 数据 中 的 噪声 具有 很 好 的 健壮 性 。 反 向 传播 算 
法 是 最 常见 的 网 络 学 习 算法 ,这 已 被 成 功 应 用 在 很 多 学 习 任务 中 ,比如 手写 识别 和 机 如 
人 控制 。 

© 反 向 传播 算法 考虑 的 假设 空间 是 固定 连接 的 有 权 网 络 所 能 表示 的 所 有 函数 的 空间 。 包 
含 三 层 单元 的 前 馈 网 络 能 够 以 任意 精度 逼近 任意 函数 ,只 要 每 一 层 有 足够 数量 (可 能 非 
常 多 ) 的 单元 。 即 使 是 一 个 实际 大 小 的 网 络 也 能 够 表示 很 大 范围 的 高 度 非 线性 的 函数 ， 
这 使 得 前 馈 网 络 成 为 学 习 预 先 未 知 的 一 般 形式 的 离散 和 连续 函数 的 很 好 选择 。 

© 反 向 传播 算法 使 用 梯度 下 降 方 法 搜索 可 能 假设 的 空间 , 先 代 减 小 网 络 的 误差 以 拟 全 六 
练 数据 。 梯 度 下 降 收 敛 到 训练 误差 相对 网 络 权 值 的 局 部 极 小 值 。 通 常 ,梯度 下 降 是 一 
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种 有 应 用 潜力 的 方法 , 它 可 用 来 搜索 很 多 连续 参数 的 假设 空间 ,只 要 训练 误差 是 假设 参 
数 的 可 微 函 数 。 

© 反 向 传播 算法 最 令 人 感 兴趣 的 特征 之 一 ,是 它 能 够 创造 出 网 络 输入 中 没有 明确 出 现 的 
特征 。 确 切 地 讲 , 多 层 网 络 的 内 部 (隐藏 ) 层 能 够 表示 对 学 习 目 标 函数 有 用 的 但 隐 含 在 
网 络 输入 中 的 中 间 特 征 。 这 种 能 力 被 一 些 例子 所 描述 ,如 4.6.4 节 的 8x3x8 网 络 中 
创造 的 数字 1 到 8 的 布尔 编码 ,以 及 4.7 节 人 脸 识 别 应 用 中 隐藏 层 表 示 的 图 像 特征 。 
© 过 度 拟 合 训练 数据 是 ANN 学 习 中 的 一 个 重要 问题 。 过 度 拟 合 导致 网 络 泛 化 到 新 的 数 
据 时 性 能 很 差 ,尽管 网 络 对 于 训练 数据 表现 非常 好 。 交 叉 验 证 方法 可 以 用 来 估计 梯度 
下 降 搜索 的 合适 终止 点 ,从 而 最 小 化 过 度 拟 合 的 风险 。 

e 尽管 反 向 传播 算法 是 最 常见 的 ANN 学 习 算法 ,人 们 也 提出 很 多 其 他 的 算法 ,包括 对 于 
特殊 任务 的 一 些 算 法 。 例 如 ,递归 网 络 方法 训练 包含 有 向 环 的 网 络 ,类 似 级 联 相 关 的 算 
法 改变 权 的 同时 也 改变 了 网 络 结构 。 

本 书 的 其 他 章节 也 介绍 了 一 些 关 于 ANN 学 习 的 其 他 信息 。 第 6 章 给 出 了 选择 最 小 化 误 
差 平 方 和 的 贝 叶 斯 论证 ,以 及 在 其 他 情况 下 用 最 小 化 交叉 焙 (eross-entropy) 代 替 最 小 化 误差 平 
方 和 的 方法 。 第 7 章 讨 论 了 为 可 靠 学 习 布尔 函数 所 需要 的 训练 实例 数量 的 理论 结果 ,以 及 某 
些 类 型 网 络 的 Vapnik - Chervonenkis 维 。 关 于 过 度 拟 合 以 及 如 何 避 免 过 度 拟 合 的 讨论 可 以 在 
第 5 章 中 找到 。 第 12 章 讨论 了 使 用 以 前 的 知识 来 提高 泛 化 精度 的 方法 。 

对 人 工 神经 网 络 的 研究 可 以 追溯 到 计算 机 科学 的 早期 。McCulloch & Pitts(1943) 提 出 了 
一 个 相当 于 感知 器 的 神经 元 模型 20 世纪 60 年 代 他 们 的 大 量 工作 探索 了 这 个 模型 的 很 多 变 
体 。20 世纪 60 年 代 早 期 Widrow & Hoff(1960) 探 索 了 感知 器 网 络 (他 们 称 为 “adelines”) 和 
delta 法 则 。Rosenblatt(1962) 证 明了 感知 器 训练 法 则 的 收敛 性 。 然 而 ,直到 20 世纪 60 年 代 晚 
期 ,人 们 才 开 始 清 楚 单 层 的 感知 器 网 络 的 表现 能 力 很 有 限 ,而 且 找 不 到 训练 多 层 网 络 的 有 效 方 
法 。Minsky & Papert(1969) 说 明 即 使 是 像 XOR 这 样 简单 的 函数 也 不 能 用 单 层 的 感知 器 网 络 
表示 或 学 习 , 在 整个 20 世纪 70 年 代 ANN 的 研究 衰退 了 。 

在 20 世纪 80 年 代 中 期 ANN 的 研究 经 历 了 一 次 复兴 , 主要 是 因为 训练 多 层 网 络 的 反 疝 
传播 算法 的 发 明 (Rumelhart & McClelland 1986; Parker 1985)。 这 些 思想 可 以 被 追溯 到 有 关 
的 早期 研究 (例如 , Werbos 1975). AMA 20 世纪 80 年 代 , 反 向 传播 算法 就 成 为 应 用 最 广泛 的 
学 习 方 法 ,而 且 人 们 也 积极 探索 出 了 很 多 其 他 的 ANN 方法 。 在 同一 时 期 ,计算 机 变 得 不 再 贵 
重 ,这 允许 人 们 试验 那些 在 20 世纪 60 年 代 不 可 能 被 完全 探索 的 计算 密集 型 的 算法 。 

很 多 教科 书 专门 论述 了 神经 网 络 学 习 。 一 本 早期 的 但 仍 有 用 的 关于 模式 识别 的 参数 学 习 
方法 的 书 是 Duda & Hart(1973)。Windrow & Stearns(1985) 的 教科 书 覆 盖 了 感知 器 和 相关 的 
单 层 网 络 以 及 它们 的 应 用 。Rumelhart & McClelland( 1986) 收 编 了 20 世纪 80 年 代 中 期 开始 
的 重新 激发 起 人 们 对 神经 网 络 方法 兴趣 的 论文 。 关 于 神经 网 络 最 近 出 版 的 书籍 包括 Bishop 
(1996) „Chauvin & Rumelhart(1995) Freeman & Skapina(1991) 、 Fu( 1994) 、Hecht — Nielson 
(1990) # Hertz et al. (1991). 


习题 


4.1 对 图 4-3 画 出 的 误差 曲面 ,感知 器 的 权 wo, wi 和 w 的 值 是 什么 ? 假定 这 个 误差 曲面 
与 xi 轴 相 交 在 x1= - 1, 并 与 xz 轴 相 交 在 x2 = 2。 
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4.4 


4.5 


4.6 


4.7 


4.8 


4.9 


设计 一 个 两 输入 的 感知 器 来 实现 布尔 函数 4 人 一 8B。 设 计 一 个 两 层 的 感知 器 网 络 来 实 
现 布尔 函数 A XOR B- 
考虑 使 用 阔 值 表达 式 wo + wxt+ w2x2>0 定 义 的 两 个 感知 器 。 感 知 器 4 的 权 值 为 : 

wo=1,w,=2,w,=1 
感知 器 B 的 权 值 为 : 

wo =0,w,=2,w2=1 
请 判断 以 下 表达 对 或 错 。 感 知 器 4 是 more _ general _ than 感知 器 B 的 ( more _ general 
_ than 在 第 2 章 中 定义 )。 
实现 一 个 两 输入 线性 单元 的 delta 训练 法 则 。 训 练 它 来 拟 合 目标 概念 -2+ xi+2x2> 
0。 画 出 误差 E 相对 训练 欠 代 次 数 的 函数 曲线 。 画 出 5,10,50,100,…… 次 迭代 后 的 决 
策 面 。 
(a) 为 选取 不 同 的 常量 值 ,并 使 用 衰减 的 学 习 速 率 一 一 也 就 是 第 i 次 迭代 使 用 p07i， 
再 进行 试验 。 哪 一 个 效果 更 好 ? 
(b) 试验 增 量 (incremental) 和 批量 (batch) 学 习 。 哪 个 收敛 得 更 快 ? 考虑 权 值 更 新 次 数 
和 总 执行 时 间 。 
推导 输出 为 。 的 单个 单元 的 梯度 下 降 训练 法 则 ,其 中 : 

o= Wot WIXI+ W XL H + WiXnt WAXY 

简略 解释 为 什么 公式 (4.10) 中 的 delta 法 则 仅 是 公式 (4.7) 表 示 的 真正 梯度 下 降 法 则 的 
近似 ? 
考虑 一 个 两 层 的 前 馈 ANN, 它 具有 两 个 输入 a 和 ,一 个 隐藏 单元 ,和 一 个 输出 单元 
d。 这 个 网 络 有 五 个 权 值 ( ww, ww, wco, Wades Wao) ,其 中 wo 表示 单元 x MBAR. A 
把 这 些 权 的 值 初始 化 为 (0.1,0.1,0.1,0.1,0.1) ,然后 给 出 使 用 反 向 传播 算法 训练 这 个 
网 络 的 前 两 次 迭代 中 每 一 次 这 些 权 值 的 值 。 假 定 学 习 速率 7 = 0.3, 冲 量 a = 0.9, 采 用 
增 量 的 权 值 更 新 和 以 下 训练 样 例 : 


0 1 0 
修改 表 4-2 中 的 反 向 传播 算法 ,使 用 双 曲 正切 tarh 函数 取代 sigmoid 函数 作为 挤 压 函 
数 。 也 就 是 说 ,假定 单个 单元 的 输出 是 。= tanp(z .xz)。 给 出 输出 层 权 值 和 隐藏 层 权 值 
的 权 更 新 法 则 。 提 示 : tanh (x)=1- tanh?(x). 
回忆 图 4-7 描述 的 8x3x 8 网络。 考虑 训练 一 个 8 x 1 x 8 的 网 络 来 完成 同样 的 任务 ,也 
就 是 仅 有 一 个 隐藏 单元 的 网 络 。 注 意 ,图 4-7 中 的 8 个 训练 样 例 可 以 被 表示 为 单个 隐藏 
单元 的 8 个 不 同 的 值 (例如 0.1,0.2,……: ,0.8)。 那 么 仅 有 一 个 隐藏 单元 的 网 络 能 够 根 
据 这 些 训 练 样 例 学 习 恒 等 函数 吗 ? 提示: 考虑 类 似 这 样 的 问题 “是 否 存在 这 样 的 隐藏 单 
元 权 值 ,能 产生 上 面 建议 的 隐藏 单元 编码 ?"“ 是 否 存在 这 样 的 输出 单元 权 值 ,能 正确 解 
码 这 样 的 输入 编码 ?” 和 “梯度 下 降 搜索 可 能 发 现 这 样 的 权 值 吗 ?”。 


4.10 考虑 第 4.8.1 节 中 描述 的 另 一 种 误差 函数 : 
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E(w )= 、， 5 (tha ~ oa)? + Y Xw? 
ij 


1 

21 DKE outputs 
为 这 个 误差 E 推导 出 梯度 下 降 权 更 新 法 则 。 证 明 这 个 权 值 更 新 法 则 的 实现 可 通过 在 
进行 表 4-2 的 标准 梯度 下 降 权 更 新 前 把 每 个 权 值 乘 以 一 个 常数 。 

4.11 应 用 反 向 传播 算法 来 完成 人 脸 识 别 任务 。 参 见 因特网 http://www.ecs.cmu.edu/ ~ 
tom/book. html 来 获得 细节 ,包括 人 脸 图 像 数 据 、 反 向 传播 程序 源 代码 和 具体 的 任务 。 

4.12 推导 出 学 习 x,y 平面 上 的 矩形 这 一 目标 概念 的 梯度 下 降 算法 。 使 用 x,y 的 坐标 描述 
每 一 个 假设 ,矩形 的 左下 角 和 右上 角 分 别 表示 为 Ua, lly, urx 和 uryo 实例 4x,y) 被 假 
BWC Ux , lly, urx ,ury) 标 记 为 正 例 的 充 要 条 件 是 点 4x,y) 位 于 对 应 的 矩形 内 部 。 按 本 
章 中 的 办 法 定义 误差 E。 试 设计 一 个 梯度 下 降 算法 来 学 习 这 样 的 矩形 假设 。 注 意 误差 
E FÆ lx lly urs 和 wury 的 连续 函数 ,这 与 感知 器 学 习 的 情况 一 样 ( 提 示 : 考虑 感知 
器 中 使 用 的 两 个 解决 办 法 : (1) 改 变 分 类 法 则 来 使 输出 预测 成 为 输入 的 连续 函数 ;(2) 
另外 定义 一 个 误差 一 一 比如 到 和 矩形 中 心 的 距离 一 一 就 像 训 练 感知 器 的 delta 法 则 )。 当 
正 例 和 反例 可 被 矩形 分 割 时 ,设计 的 算法 会 收敛 到 最 小 误差 假设 吗 ? 何 时 不 会 ? 该 算 
法 有 局 部 极 小 值 的 问题 吗 ? 该 算法 与 学 习 特 征 约束 合 取 的 符号 方法 相 比如 何 ? 





参考 文献 


Bishop, C. M. (1996). Neural networks for pattern recognition. Oxford, England: Oxford University 
Press. 

Chauvin, Y., & Rumelhart, D. (1995). BACKPROPAGATION: Theory, architectures, and applications 
(edited collection). Hillsdale, NJ: Lawrence Erlbaum Assoc. 

Churchland, P. S., & Sejnowski, T. J. (1992). The computational brain. Cambridge, MA: The MIT 
Press. 

Cybenko, G. (1988). Continuous valued neural networks with two hidden layers are sufficient (Tech- 
nical Report). Department of Computer Science, Tufts University, Medford, MA. 

Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Con- 
trol, Signals, and Systems, 2, 303-314. 

Cottrell, G. W. (1990). Extracting features from faces using compression networks: Face, identity, 
emotion and gender recognition using holons. In D. Touretzky (Ed.), Connection Models: 
Proceedings of the 1990 Summer School. San Mateo, CA: Morgan Kaufmann. 

Dietterich, T. G., Hild, H., & Bakiri, G. (1995). A comparison of ID3 and BACKPROPAGATION for 
English text-to-speech mapping. Machine Learning, 18(1), 51-80. 

Duda, R., & Hart, P. (1973). Pattern classification and scene analysis. New York: John Wiley & 
Sons. 

Elman, J. L. (1990). Finding structure in time. Cognitive Science, 14, 179-211. 

Fahiman, S., & Lebiere, C. (1990). The CASCADE-CORRELATION learning architecture (Technical 
Report CMU-CS-90-100). Computer Science Department, Carnegie Mellon University, Pitts- 
burgh, PA. 

Freeman, J. A., & Skapura, D. M. (1991). Neural networks. Reading, MA: Addison Wesley. 

Fu, L. (1994). Neural networks in computer intelligence. New York: McGraw Hill. 

Gabriel, M. & Moore, J. (1990). Learning and computational neuroscience: Foundations of adaptive 
networks (edited collection). Cambridge, MA: The MIT Press. 

Hecht-Nielsen, R. (1990). Neurocomputing. Reading, MA: Addison Wesley. 

Hertz, J., Krogh, A., & Palmer, R.G. (1991). Introduction to the theory of neural computation. Read- 





HAE ”人工 视 经 网 络 


93 








ing, MA: Addison Wesley. 

Hornick, K., Stinchcombe, M., & White, H. (1989). Multilayer feedforward networks are universal 
approximators. Neural Networks, 2, 359-366. 

Huang, W. Y., & Lippmann, R. P. (1988). Neural net and traditional classifiers. In Anderson (Ed.), 
Neural information Processing Systems (pp. 387-396). 

Jordan, M. (1986). Attractor dynamics and parallelism in a connectionist sequential machine. Pro- 
ceedings of the Eighth Annual Conference of the Cognitive Science Society (pp. 531-546). 

Kohonen, T. (1984). Self-organization and associative memory. Berlin: Springer-Verlag. 

Lang, K. J., Waibel, A. H., & Hinton, G. E. (1990). A time-delay neural network architecture for 
isolated word recognition. Neural Networks, 3, 33-43. 

LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L.D. 
(1989). BACKPROPAGATION applied to handwritten zip code recognition. Neural Computa- 
tion, 1(4). 

LeCun, Y., Denker, J. S., & Solla, S. A. (1990). Optimal brain damage. In D. Touretzky (Ed.), 
Advances in Neural Information Processing Systems (Vol. 2, pp. 598-605). San Mateo, CA: 
Morgan Kaufmann. 

Manke, S., Finke, M. & Waibel, A. (1995). NPEN++: a writer independent, large vocabulary on- 
line cursive handwriting recognition system. Proceedings of the International Conference on 
Document Analysis and Recognition. Montreal, Canada: [EEE Computer Society. 

McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. 
Bulletin of Mathematical Biophysics, 5, 115-133. 

Mitchell, T. M., & Thran, S. B. (1993). Explanation-based neural network learning for robot control. 
In Hanson, Cowan, & Giles (Eds.), Advances in neural information processing systems 5 
(pp. 287-294). San Francisco: Morgan Kaufmann. 

Mozer, M. (1995). A focused BACKPROPAGATION algorithm for temporal pattern recognition. In 
Y. Chauvin & D. Rumelhart (Eds.), Backpropagation: Theory, architectures, and applications 
(pp. 137-169). Hillsdale, NJ: Lawrence Erlbaum Associates. 

Minsky, M., & Papert, S. (1969). Perceptrons. Cambridge, MA: MIT Press. 

Nilsson, N. J. (1965). Learning machines. New York: McGraw Hill. 

Parker, D. (1985). Learning logic (MIT Technical Report TR-47). MIT Center for Research in 
Computational Economics and Management Science. 

Pomerleau, D. A. (1993). Knowledge-based training of artificial neural networks for autonomous 
robot driving. In J. Connell & S. Mahadevan (Eds.), Robot Learning (pp. 19-43). Boston: 
Kluwer Academic Publishers. 

Rosenblatt, F. (1959). The perceptron: a probabilistic modei for information storage and organization 
in the brain. Psychological Review, 65, 386-408. 

Rosenblatt, F. (1962). Principles of neurodynamics. New York: Spartan Books. 

Rumelhart, D. E., & McClelland, J. L. (1986). Parallel distributed processing: exploration in the 
microstructure of cognition (Vols. | & 2). Cambridge, MA: MIT Press. 

Rumelhart, D., Widrow, B., & Lehr, M. (1994). The basic ideas in neural networks. Communications 
of the ACM, 37(3), 87-92. 

Shavlik, J. W., Mooney, R. J., & Towell, G. G. (1991). Symbolic and neural leaming algorithms: 
An experimental comparison. Machine Learning, 6(2), I 11~144. 

Simard, P. S., Victorri, B., LeCun, Y., & Denker, J. (1992). Tangent prop—A formalism for specifying 
selected invariances in an adaptive network. In Moody, et al. (Eds.), Advances in Neural 
Information Processing Systems 4 (pp. 895-903). San Francisco: Morgan Kaufmann. 

Waibel, A., Hanazawa, T., Hinton, G., Shikano, K., & Lang, K. (1989). Phoneme recognition using 
time-delay neural networks. JEEE Transactions on Acoustics, Speech and Signal Processing. 

Weiss, S., & Kapouleas, 1. (1989). An empirical comparison of pattem recognition, neural nets, and 
machine learning classification methods. Proceedings of the Eleventh [ICAI (pp. 7181-787). 
San Francisco: Morgan Kaufmann. 

Werbos, P. (1975). Beyond regression: New tools for prediction and analysis in the behavioral sciences 
(Ph.D. dissertation). Harvard University. 

Widrow, B., & Hoff, M. E. (1960). Adaptive switching circuits. IRE WESCON Convention Record, 
4, 96-104. 

Widrow, B., & Stearns, S. D. (1985). Adaptive signal processing. Signal Processing Series. Englewood 





94 pH RFJ 








Cliffs, NJ: Prentice Hall. 

Williams, R., & Zipser, D. (1995). Gradient-based learning algorithms for recurrent networks and their 
computational complexity. In Y. Chauvin & D. Rumelhart (Eds.), Backpropagation: Theory, 
architectures, and applications (pp. 433-486). Hillsdale, NJ: Lawrence Erlbaum Associates. 

Zometzer, S. F., Davis, J. L., & Lau, C. (1994). An introduction to neural and electronic networks 
(edited collection) (2nd ed.). New York: Academic Press. 











第 5 章 评估 假设 


对 假设 的 精度 进行 经 验 评 估 是 机 器 学 习 中 的 基本 问题 。 本 章 介绍 了 用 统计 方法 估计 假设 
精度 ,主要 为 解决 以 下 三 个 问题 :首先 ,已 知 一 个 假设 在 有 限 数据 样本 上 观察 到 的 精度 ,怎样 估 
计 它 在 其 他 实例 上 的 精度 ?其 次 ,如 果 一 个 假设 在 某 些 数 据 样本 上 好 于 另 一 个 ,那么 一 般 情 况 
下 该 假设 是 否 更 准确 ? 第 三 , 当 数 据 有 限时 ,怎样 高 效 地 利用 这 些 数 据 ,通过 它们 既 能 学 习 到 
假设 ,还 能 估计 其 精度 ?由 于 有 限 的 数据 样本 可 能 不 代表 数据 的 一 般 分 布 , 所 以 从 这 些 数据 上 
估计 出 的 假设 精度 可 能 有 误差 。 统 计 的 方法 ,结合 有 关 数 据 基准 分 布 的 假定 ,使 我 们 可 以 用 有 
限 数据 样本 上 的 观察 精度 来 逼近 整个 数据 分 布 上 的 真实 精度 。 


5.1 动机 


多 数 情况 下 ,对 学 习 到 的 假设 进行 尽 可 能 准确 的 性 能 评估 十 分 重要 。 原 因 之 一 很 简单 ,是 
为 了 知道 是 否 可 以 使 用 该 假设 。 例 如 ,从 一 个 长 度 有 限 的 数据 库 中 学 习 以 了 解 不 同 医疗 手段 
的 效果 ,就 有 必要 尽 可 能 准确 地 知道 学 习 结果 的 正确 性 。 另 一 原因 在 于 ,对 假设 的 评估 是 许多 
学 习 方 法 的 重要 组 成 部 分 。 例 如 在 决策 树 学 习 中 ,为 避免 过 度 拟 合 问题 必须 进行 后 修剪 ,这 时 
我 们 必须 评估 每 一 步 修 前 对 树 的 精度 产生 的 影响 。 因此 ,有 必要 了 解 已 修剪 和 未 修剪 树 的 精 
度 估计 中 国有 的 误差 。 
当 数 据 十 分 充足 时 ,假设 精度 的 估计 相对 容易 。 然 而 当 给 定 的 数据 集 非常 有 限时 ,要 学 习 
一 个 概念 并 估计 其 将 来 的 精度 ,存在 两 个 很 关键 的 困难 : 
@ 估计 的 偏差 (Bias in the estimate) 首先 ,学 习 到 的 概念 在 训练 样 例 上 的 观察 精度 通常 
不 能 很 好 地 用 于 估计 在 将 来 样 例 上 的 精度 。 因为 假设 是 从 这 些 样 例 中 得 出 的 ,因此 对 
将 来 样 例 的 精度 估计 通常 偏 于 乐观 。 尤 其 在 学 习 器 采用 了 很 大 的 假设 空间 并 过 度 拟 合 
训练 样 例 时 ,这 一 情况 就 更 可 能 出 现 。 要 对 将 来 的 精度 进行 无 偏 估计 ,典型 的 方法 是 选 
择 与 训练 样 例 和 假设 无 关 的 测试 样 例 ,并 在 这 个 样 例 集合 上 测试 假设 。 
@ 估计 的 方差 (Variance in the estimate) HX, 即使 假设 精度 在 独立 的 无 偏 测试 样 例 上 
测量 ,得 到 的 精度 仍 可 能 与 真实 精度 不 同 ， 这 取决 于 特定 测试 样 例 集 合 的 组 成 。 测 试 样 
例 越 少 ,产生 的 方差 越 大 。 
本 章 讨 论 了 对 学 到 的 假设 的 评估 、 对 两 个 假设 精度 的 比较 和 在 有 限 的 数据 样本 情况 下 两 
个 学 习 算法 精度 的 比较 ,其 中 的 讨论 多 数 集中 在 统计 和 采样 理论 的 基本 定律 。 本 章 假定 读者 
在 统计 学 方面 没有 背景 知识 ,而 假设 的 统计 测试 需要 较 多 的 理论 知识 ， 因此 本 章 提 供 了 介绍 性 
的 综述 ,集中 讨论 那些 与 假设 的 学 习 、 评 估 和 比较 相关 的 问题 。 


5.2 估计 假设 精度 


在 评估 一 个 假设 时 ,我们 一 般 对 估计 这 个 假设 对 未 来 实例 的 分 类 的 精度 更 感 兴趣 。 同 时 ， 
也 需要 知道 这 一 精度 估计 中 的 可 能 的 误差 ( 即 与 此 估计 相 联系 的 误差 门限 )。 
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本 章 使 用 的 学 习 问 题 的 框架 如 下 。 有 一 所 有 可 能 实例 的 空间 X( 如 所 有 人 的 集合 ), 其 上 
定义 了 多 个 目标 函数 (如 ,计划 本 年 购买 滑雪 板 的 人 )。 我 们 假定 X 中 不 同 实 例 具有 不 同 的 出 
现 频率 ,对 此 ,一 种 合适 的 建 模 方式 是 ,假定 存在 一 未 知 的 概率 分 布 弘 它 定义 了 XX 中 每 一 实 
例 出 现 的 概率 (如 ,19 岁 的 人 的 概率 比 109 岁 的 人 的 概率 高 )。 注 意 多 并 没有 说 明 x 是 一 正 例 
还 是 一 反例 ,只 确定 了 其 出 现 概 率 。 学 习 任 务 是 在 假设 空间 H 上 学 习 一 个 目标 概念 ( 即 目标 
PAIK) f 日 标 函 数 f 的 训练 样 例 由 施 教 者 提供 给 学 习 器 :每 一 个 实例 按照 分 布 多 被 独立 地 折 
取 , 然 后 它 连 同 其 正确 的 目标 值 f(x ) 被 提供 给 学 习 器 。 

为 说 明 这 一 点 ,考虑 目标 函数 “计划 本 年 购买 滑雪 板 者 ”, 可 以 调查 去 滑雪 板 商 店 的 顾客 ， 
通过 此 调查 来 收集 训练 样 例 。 在 这 里 实例 空间 X 为 所 有 人 组 成 的 集合 ,每 个 实例 可 由 人 的 各 
种 属性 描述 ,如 年 龄 .职业 、 每 年 滑雪 次 数 等 。 分 布 情况 多 指定 了 在 滑雪 板 商 店 中 遇 到 每 个 人 
的 概率 。 目 标 函 数 /:T 一 0,1| 将 每 个 人 进行 分 类 ,判断 它 是 否 会 在 本 年 内 购买 滑雪 板 。 

在 这 个 一 般 的 框架 中 ,我 们 感 兴趣 的 是 以 下 两 个 问题 : 

1) 给 定 假设 h 和 包含 若干 按 多 分 布 随机 抽取 的 样 例 的 数据 集 ,如何 针 对 将 来 按 同 样 分 布 

抽取 的 实例 ,得 到 对 h 的 精度 的 最 好 估计 。 

2) 这 一 精度 估计 的 可 能 的 误差 是 多 少 ? 


5.2.1 样本 错误 率 和 真实 错误 率 


为 解决 上 述 的 两 个 问题 ,需要 确切 地 区 分 出 两 种 精度 (或 两 种 错误 率 )。 其 一 是 可 用 数据 
样本 上 该 假设 的 错误 率 。 其 二 是 在 分 布 为 儿 的 整个 实例 集合 上 该 假设 的 错误 率 。 它 们 分 别 
被 称 为 样本 错误 率 和 真实 错误 率 。 

对 于 从 工 中 抽取 的 样本 5 , 某 假 设 关于 S 的 样本 错误 率 (sample error) 是 该 假设 错误 分 类 
的 实例 在 S 中 所 占 的 比例 ; 


定义 :假设 六 关于 目标 函数 f 和 数据 样本 S 的 样本 错误 率 (标记 为 errors( 有) ) 为 : 
errors(h) = > D38 f(x), h(x)) 

其 中 ,为 $ 中 样 例 的 数量 ,而 3(/(x) ,h(x)) 在 f(a) a h(x) AEH 1, UH 0. 

真实 错误 率 (true error) 是 对 于 按 乡 分 布 随机 抽取 的 实例 ,该 假设 对 它 错误 分 类 的 概率 。 


定义 :假设 hh 关于 目标 函数 f 和 分 布 多 的 真实 错误 率 ( 由 error h) RR), A h 按 多 分 布 
随机 抽取 实例 被 误 分 类 的 概率 : 
errorAh) = Pr[ f(x) # h(x) 


这 里 ,记号 Pr 表示 概率 在 实例 分 布 DLT. 


我 们 通常 想 知 道 的 是 假设 的 真实 错误 率 errorskh) ,因为 这 是 在 分 类 未 来 样 例 时 可 以 预料 到 
的 错误 。 然 而 我 们 所 能 测量 的 只 是 样本 错误 率 errors (有), 它 所 要 求 的 数据 样本 S 是 我 们 所 拥有 
的 。 本 节 所 要 考虑 的 主要 问题 就 是 “errors(h) 在 何 种 程度 上 提供 了 对 error fh) 的 估计 ?”。 


5.2.2 离散 值 假设 的 置信 区 间 
为 解决 “errors(h) 在 何 种 程度 上 提供 了 对 error fh) 的 估计 ”的 问题 , 先 考虑 h 为 离散 值 





PSE FRÉ 97 





假设 的 情况 。 具 体 地 说 ,比如 我 们 要 基于 某 离散 值 假设 h EEE S 上 观察 到 的 样本 错误 率 估 
计 它 的 真实 错误 率 ,其 中 : 

e@ 样本 S 包含 个 样 例 ,它们 的 抽取 按照 概率 分 布 肪 抽取 过 程 是 相互 独立 的 ,并 且 不 依 

HF h 

@ n>=30 

o 假设 h Eix n 个 样 例 上 犯 了 > 个 错误 (例如 ,errors(h)=r/n) 

已 知 这 些 条 件 ,统计 理论 可 给 出 以 下 断言 ; 

1) 没有 其 他 信息 的 话 ,error (h) 最 可 能 的 值 为 errors(h) 

2) AKA 95% 的 可 能 性 ,真实 错误 率 errorw(h) 处 于 下 面 的 区 间 内 : 

errors(h) + 1.964) errors( h- errors(h)) 

举例 说 明 ,假如 数据 样本 S 包含 n = 40 个 样 例 ,并 且 假 设 h 在 这 些 数据 上 产生 了 r= 12 
个 错误 。 这 样 ,样本 错误 率 为 errors (hh) = 12/40 = 0.30。 如 果 没 有 更 多 的 信息 ,对 真实 错误 
率 errory (有 ) 的 最 好 的 估计 即 为 样本 错误 率 0.30。 然 而 我 们 不 能 期 望 这 是 对 真实 错误 率 的 
完美 估计 。 如 果 另 外 搜集 40 个 随机 抽取 的 样 例 S’ ,样本 错误 率 errors (h) EGR errors 
(有 ) 存 在 一 些 差别 。 这 种 差别 是 由 S' 和 5 组 成 上 的 随机 差异 所 产生 的 。 实 际 上 ,如果 不 断 重 
复 这 一 实验 ,每 次 抽取 一 个 包含 40 样 例 的 样本 Si ,将 会 发 现 约 95% 的 实验 中 计算 所 得 的 区 间 
包含 真实 错误 率 。 因 此 ,我 们 将 此 区 间 称 为 errorss(h) 的 95% 置信 区 间 估 计 。 在 本 例 中 , r = 
12 和 n= 40, 根 据 上 式 ,95% 置信 区 间 为 0.30 + (1.96 x 0.07) =0.30+0.14。 

上 面 的 95% 置 信 区 间 表 达 式 可 推广 到 一 般 情形 以 计算 任意 置信 和 度 。 常 数 1.96 是 由 95% 
这 一 置信 和 度 确 定 的 。 定 义 zw 为 计算 N% 置信 区 间 时 的 常数 。 计 算 errory (h) N% 置信 区 
间 的 一 般 表达 式 为 : 











errors(h) s zya TSU U = errors h?) (5.1) 


其 中 ,zw 的 值 依 赖 于 所 需 的 置信 度 ,参见 表 5-1 中 的 取 值 。 
表 5-1 WH N% 置信 区 间 的 zw 值 


置信 和 度 N% 50% 68% 80% 90% 95% 98% 99% 
常量 zw 0.67 1.00 1.28 1.64 1.96 2.33 2.58 








因此 ,正如 error (h) EY 95% BIE X lal A 0.304 (1.96 x 0.07) (HH r =12,n = 40), A 
以 求 得 同样 情况 下 68% 置 信 区 间 为 0.30 + (1.0 x 0.07)。 从 直觉 上 我 们 也 可 以 看 出 68% E 
信和 区间 要 小 于 9%5 多 置信 区 间 ,因为 我 们 减 小 了 要 求 errorz (有) 落 和 人 此 区 间 的 概率 。 

公式 (5.1) 描 述 了 为 了 在 errors(h) 基 础 上 估计 errorg (有 ), 如 何 计算 置信 区 间 ( 即 误差 门 
限 )。 这 一 表达 式 只 能 应 用 于 离散 值 假设 。 它 假定 样本 S 抽取 的 分 布 与 将 来 的 数据 抽取 的 分 
布 相同 ,并且 假定 数据 不 依赖 于 所 测 式 的 假设 。 还 有 ,该 表达 式 只 提供 了 近似 的 置信 区 间 ,不 
过 这 一 近似 在 至 少 包含 30 个 样 例 并 且 errors(h) RARE 0 或 1 时 很 接近 真实 情况 。 判 断 这 
种 近似 是 否 接近 真实 ,更 精确 的 规则 为 : 

n errors(h)(1 - errors(h)) &5 
上 面 我 们 概述 了 计算 离散 值 假设 的 置信 区 间 的 过 程 ,下 一 节 将 给 出 这 一 过 程 的 统计 学 基 
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5.3 采样 理论 基础 


本 节 介 绍 了 统计 学 和 采样 理论 的 几 个 基本 概念 ,包括 概率 分 布 .期 望 值 方 差 ,二 项 分 布 和 
正 态 分 布 . 双 侧 和 单 侧 区 间 。 对 于 这 些 概念 的 基本 了 解 将 有 助 于 理解 假设 评估 和 和 算法 评估 。 
更 为 重要 的 是 ,它们 提供 了 一 种 重要 的 概念 框架 ,以 便于 理解 相关 的 机 器 学 习 问 题 (如 过 度 拟 
合 问题 ) 以 及 理解 在 成 功 的 泛 化 和 训练 样 例 数目 之 间 的 关系 。 已 经 熟悉 这 些 概 念 的 读者 可 以 
跳 过 本 节 。 其 中 介绍 的 关键 概念 在 表 5-2 中 列 出 。 


表 5-2 统计 学 中 的 基本 定义 和 概念 


随机 变量 (random variable) 可 看 作 是 有 概率 输出 的 一 个 实验 的 名 字 。 它 的 值 为 实验 的 输出 结果 
某 随 机 变量 了 的 概率 分 布 (probability distribution) 指 定 了 取 值 为 任 一 可 能 的 值 y; 的 可 能 性 Pr( Y = y;) 


随机 变量 Y 的 期 望 值 (expected value) 或 均值 (mean) 为 EL Y] = ZiyPr( 了 = %%)。 通 常用 符号 py 来 表示 ELY] 
随机 变量 的 方差 (Variance) 为 Var( 了 ) = E[(Y -py)*]。 它 描述 了 Y 关于 其 均值 分 布 的 宽度 或 分 散 度 

Y 的 标准 盖 ( Standard deviation) HV Var(Y) ,通常 用 符号 oy 来 表示 

二 项 分 布 (Binomial distribution) 是 在 硬币 投掷 问题 中 , 若 出 现 正面 的 概率 为 p BALE n 个 独立 的 实验 中 出 
现 ; 次 正面 的 分 布 情况 

正 态 分 布 ( Normal distribution) 是 一 个 钟 形 的 概率 分 布 , 它 在 许多 自然 现象 中 都 会 出 现 

中 心 极限 定理 (Central Limit Theorem) 说 明 独 立 问 分 布 的 随机 变量 的 总 和 遵 德 正 态 分 布 

估计 量 (estimator) 为 一 个 随机 变量 了 , 它 被 用 来 估计 -一 个 基准 总 体 的 某 一 参数 p 

Y 的 估计 人 篇 整 (estimation bias) 作 为 p 的 估计 量 是 (E[ 了] - pP)。 无 偏 估计 量 是 指 该 偏差 为 0 

N% 置 信 区 间 (confidence intervai) 用 于 估计 参数 p ,该 区 间 包 含 p 的 概率 为 N% 


5.3.1 错误 率 估计 和 二 项 比例 估计 


样本 错误 率 和 真实 错误 率 之 间 的 差异 与 数据 样本 大 小 的 依赖 关系 如 何 ” 这 一 问题 在 统计 
学 中 已 被 透彻 研究 。 它 可 表述 为 :给 定 一 总 体 中 随机 抽取 的 部 分 样本 的 其 属性 的 观察 频率 , 估 
计 整 体 的 该 属性 的 概率 。 在 这 里 ,我们 感 兴趣 的 观察 量 为 是 否 误 分 类 样 例 。 

解决 该 问题 首先 要 注意 到 ,测量 样本 错误 率 相当 于 在 作 一 个 有 随机 输出 的 实验 。 我 们 先 
从 分 布 多 中 随机 抽取 出 n 个 独立 的 实例 ,形成 样本 3 ,然后 测量 样本 错误 率 errors(h), 如 前 
一 节 所 述 , 如 果 将 实验 重复 多 次 ,每 次 抽取 大 小 为 n 的 不 同 的 样本 $i ,将 可 以 得 到 不 同 的 
errors (h) 的 值 , 它 取 决 于 不 同 5; 的 组 成 中 的 随机 差异 。 这 种 情况 下 ,第 i 个 这 样 的 实验 的 输 
出 errors (有 ) 被 称 为 一 随机 变量 (random variable) 一 般 情况 下 ,可 以 将 随机 变量 看 成 一 个 有 
随机 输出 的 实验 。 随 机 变量 值 即 为 随机 实验 的 观察 输出 。 

设想 要 运行 个 这 样 的 随机 实验 ,测量 随机 变量 errorsı(h) ,errors2( 有 hh),…, errors,(h) o 
然后 我 们 以 图 表 的 形式 显示 出 观察 到 的 每 个 错误 率 值 的 频率 。 当 大 不 断 增长 ,该 图 表 将 呈现 
如 表 5-3 所 显示 的 分 布 。 该 表 描 述 的 概率 分 布 称 为 二 项 分 布 (Binomial distribution) 。 
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表 5-3 二 项 分 布 


n=40, P-0.3 时 的 二 项 分 布 


P(r) 


一 个 二 项 分 布 (Binomial distribution) 给 出 了 当 单 个 硬币 投掷 出 现 正面 的 概率 为 时 ,在 ”个 独立 硬币 投掷 的 

样本 中 观察 到 r 次 正面 的 概率 。 它 由 以 下 的 概率 函数 定义 : 
P(r) =p ype" -p 

如 果 随 机 变量 x 遵循 二 项 分 布 , 则 : 

@ X 取 值 为 r 的 概率 Pr(X = rH P(r) 给 出 ， 

o y 的 期 望 值 或 均值 ELX] 为 : 

Ei X]=np 
O X WAE Var(X)A: 
Var(X) = np(1= p) 
O X 的 标准 差 为 ox 为 : 
ay=V/ np(l-p) 

对 于 足够 大 的 n 值 ,二 项 分 布 很 接近 于 有 同样 均值 和 方差 的 正 态 分 布 ( 见 表 5-4)。 多 数 统计 学 家 建议 只 在 

np(1 - p)5 时 使 用 正 态 分 布 来 近似 一 项 分 布 


5.3.2 二 项 分 布 


为 较 好 地 理解 二 项 分 布 ,考虑 以 下 的 问题 。 有 一 磨损 并 弯曲 了 的 硬币 ,要 估计 在 抛 硬 币 时 出 
现 正面 的 概率 。 令 此 未 知 概率 为 p ,投掷 该 硬币 n 次 并 计算 出 现 正面 的 次 数 r。 对 于 p 的 一 合 
理 的 估计 为 -/n。 注 意 ,如 果 重 新 进行 一 次 该 实验 ,生成 一 个 新 的 n 次 抛 硬币 的 集合 ,其 出 现 正 
HKA + 将 与 第 一 次 实验 有 稍 许 不 同 ,从 而 得 到 对 p 的 另 一 个 估计 。 二 项 分 布 描述 的 是 对 任 一 
可 能 的 > 值 ( 从 0 到 ”) ,这 个 正面 概率 为 p RET SORE n 次 恰好 出 现 r 次 正面 的 概率 。 

有 趣 的 是 ,从 抛掷 硬币 的 随机 样本 中 估计 p 与 在 实例 的 随机 样本 上 测试 hh 以 估计 
error 以 上 ) 是 相同 的 问题 。 一 次 硬币 抛掷 对 应 于 从 多 中 抽取 一 个 实例 并 测试 它 是 否 被 h 误 分 
类 。 一 次 随机 抛掷 出 现 正面 的 概率 p 对 应 于 随机 抽取 的 实例 被 误 分 类 的 概率 ( 即 p 对 应 
error<h))>o n 次 抛 掀 的 样本 观察 到 7 次 正面 ,对 应 n RES RPAH 因此 ， 
r/n 对 应 errors(h)。 估 计 p 的 问题 等 效 于 估计 errorokh)。 二 项 分 布 给 出 了 一 个 一 般 形 式 的 
概率 分 布 ,无 论 用 于 表示 n 次 硬币 出 现 正面 的 次 数 还 是 在 n 个 样 例 中 假设 出 错 E. 二 项 
分 布 的 具体 形式 依赖 于 样本 大 小 n 以 及 概率 p error fh). 

一 般 来 说 应 用 二 项 分 布 的 条 件 包 括 : 

1) 有 一 基本 实验 (如 投掷 硬币 )， nas Y。 随 机 变量 Y 有 两 种 

取 值 (如 Y=1 为 正面 ,了 =0 反 面 )。 

2) 在 实验 的 任 一 次 尝试 中 Y = 1 的 概率 为 常数 p。 它 与 与 其 他 的 实验 尝试 无 关 。 因此 了 

= 0 概率 为 1- p。 一 般 p 为 预先 未 知 的 ,面临 的 问题 就 在 于 如 何 估计 它 。 
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3) 基本 实验 的 n 次 独立 尝试 按 序列 执行 ,生成 一 个 独立 同 分 布 的 随机 变量 序列 Yi, Y2, 
eee ,了 ,, 令 R 代表 nn 次 试验 中 出 现 Y;=1 的 次 数 : 
ee Sy, 
4) 随机 变量 R 取 特定 值 的 概率 (如 观察 到 ; 次 正面 的 概率 ) 由 二 项 分 布 给 出 : 
Pr(R= r) = ip =p) (5.2) 
此 概率 分 布 的 一 个 图 表 由 表 5-3 给 出 。 


二 项 分 布 刻画 了 n 次 硬币 投掷 出 现 > 次 正面 的 概率 ,也 刻画 了 包含 n 个 随机 样 例 的 数据 
样本 出 现 r 次 误 分 类 错误 的 概率 。 


5.3.3 均值 和 方差 


随机 变量 的 两 个 最 常用 到 的 属性 为 其 期 望 值 (也 称 为 均值 ) 和 方差 。 期 望 值 是 重复 采样 随 
机 变量 得 到 的 值 的 平均 。 更 精确 的 定义 如 下 : 


定义 :考虑 随机 变量 Y 可 能 的 取 值 为 y. . . yns Y 的 期 望 值 (expected value) EL 了 为 : 
ELY] = DyPr(Y = y,) (5.3) 


例如 ,如 果 了 取 值 1 的 概率 为 0.7, 取 值 2 的 概率 0.3, 那 么 期 望 值 为 (1 x0.7+2x0.3 = 
1.3)。 如 果 随 机 变量 了 服从 二 项 分 布 ,那么 可 得 : 
EL[LY]=np (5.4) 
其 中 ,n Alp 为 公式 (5.2) 中 定义 的 二 项 分 布 的 参数 。 
另 一 重要 属性 方差 描述 的 是 概率 分 布 的 宽度 或 散 度 , 即 它 描述 了 随机 变量 与 其 均值 之 间 
的 差 有 多 大 。 
定义 :随机 变量 Y 的 方差 (variance) Yar[ Y]A: 
Var[ Yj=E[(Y- E[Y])] (5.5) 
方差 描述 的 是 从 Y 的 一 个 观察 去 估计 其 均值 E[Y] 的 误差 平方 的 期 望 。 方 差 的 平方 根 
被 称 为 了 的 标准 差 , 记 为 oyo 
定义 :随机 变量 Y 的 标准 差 (standard deviation)oy 为 : 
oy=V E[(Y-E[Y])7] (5.6) 
若 随机 变量 Y 服从 二 项 分 布 , 则 方差 和 标准 差分 别 为 : 
Var[ Y]=np(1-p) 
y =v np(1- p) (5.7) 


5.3.4 估计 量 、 偏 差 和 方差 


我 们 已 得 出 随机 变量 errors() 服 从 二 项 分 布 ， 现在 回 到 前 面 的 问题 ;errors(h) 和 真实 错 
误 率 errorg (上 ) 之 间 可 能 的 差异 是 多 少 ? 
用 式 (5.2) 中 定义 二 项 分 布 的 术语 来 描述 errors(h) 和 error h), AG: 
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errors(h) = = 


error Ah) = p 

其 中 ,n 为 样本 $ 中 实例 数 ,r 是 $ 中 被 hh 误 分 类 的 实例 数 ,p AM 多 中 抽取 一 实例 被 误 
分 类 的 概率 。 

统计 学 中 将 errors (有 ) 称 为 真实 错误 率 error Kh) B—MAWE (estimator) Ñ% ,估计 
量 是 用 来 估计 某 基本 总 体 的 某 一 参数 的 随机 变量 。 对 于 估计 量 , 显 然 最 关心 的 是 它 平均 来 说 
是 否 能 产生 正确 估计 。 下 面 我 们 定义 估计 偏差 (estimation bias ) 作 为 估计 量 的 期 望 值 同 真实 
参数 值 之 间 的 差异 。 

定义 :针对 任意 参数 p 的 估计 量 Y 的 估计 偏差 为 : 

E[Y]-p 

如 果 估 计 偏 差 为 0, RIE 了 为 p 的 无 偏 估 计量 (unbiased estimator)。 注 意 ,在 此 情况 下 
由 多 次 重复 实验 生成 的 Y 的 多 个 随机 值 的 平均 ( 即 EL 了 ] ) 将 收敛 于 po 

errors() 是 否 为 errorekh) 的 一 个 无 偏 估 计量 ? 确实 如 此 ,因为 对 于 二 项 分 布 , r 的 期 望 
{HA np (公式 [5.41)。 由 此 ,并 且 因 为 n 为 一 常数 ,那么 r/n 的 期 望 值 为 p。 

对 估计 偏差 还 需要 作 两 点 说 明 。 首 先 ,在 本 章 开始 我 们 提 到 ,在 训练 样 例 上 测试 假设 得 到 的 
对 假设 错误 率 的 估计 偏 于 乐观 化 ,所 指 的 正 是 估计 偏差 。 要 使 errors(h) 对 errora h) ERRi, 
假设 h 和 样本 S 必须 独立 选取 。 第 二 ,估计 偏差 (estimation bias) 这 一 概念 不 能 与 第 2 章 介绍 的 
学 习 器 的 归纳 偏 置 (inductive bias) 相 混淆 。 估 计 偏 差 为 一 数字 量 ,而 归纳 偏 置 为 一 个 断言 集合 。 

估计 量 的 另 一 重要 属性 是 它 的 方差 。 给 定 多 个 无 偏 估 计量 ,直观 上 应 选取 其 中 方差 最 小 
的 。 由 方差 的 定义 ,所 选择 的 应 为 参数 值 和 估计 值 之 间 期 望 平方 误差 最 小 的 。 

假如 在 测试 一 假设 时 , 它 对 n = 40 个 随机 样 例 的 样本 产生 r = 12 个 错误 ,那么 对 
error Ah) MAMET errors(h) = r/n =0.3。 估 计 中 产生 的 方差 完全 来 源 于 r 中 的 方差 ， 
因为 n 为 一 常数 。 由 于 r 是 二 项 分 布 , 它 的 方差 由 式 (5.7) 得 np (1 - p)。 然 而 p 未 知 ,我 们 
可 以 用 估计 量 r/n 来 代替 p。 由 此 得 出 7 的 的 估计 方差 为 40 x0.3(1-0.3) = 8.4, 或 相应 的 
标准 差 V8.4~2.9。 这 表示 errors(h) = r/n 中 的 标准 差 约 为 2.9/40 = 0.07 总 而 言 之 ,观察 
到 的 errors(h) 为 0.3, 标 准 差 约 为 0.07( 见 习题 5.1)。 

一 般 来 说 , 若 在 n 个 随机 选取 的 样本 中 有 r 个 错误 ,errors(h) 的 标准 差 为 : 

Oo 


= /p(l-p) (5.8) 


n 


r 
Gerrors( h) 三 n 





它 约 等 于 用 r/n= errors( h) RARE Pp: 


os | errors RMA - errors(h)) (5.9) 
5.3.5 置信 区 间 


通常 描述 某 估计 的 不 确定 性 的 方法 是 使 用 置信 区 间 , 真 实 的 值 以 一 定 的 概率 落 人 该 区 间 
中 。 这 样 的 估计 称 为 置信 区 间 (confidence interval) 估 计 。 
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定义 : 某 个 参数 p 的 WN% 置信 区 间 是 一 个 以 N% 的 概率 包含 p 的 区 间 。 


例如 ,如 果 在 n = 40 个 独立 抽取 的 样 例 的 样本 中 有 r = 12 个 错误 ,可 以 称 区 间 0.3+0.14 
有 95% 的 可 能 性 包含 真实 错误 率 error of h)。 

如 何 获 得 error Ah WER? 答案 在 于 估计 量 errors(h) 服 从 二 项 分 布 。 这 一 分 布 
的 均值 为 error kh) ,标准 差 可 由 式 (5.9) 计 算 。 因 此 ,为 计算 95% 置信 区 间 ,只 需要 找到 一 个 
以 均值 errora hh) 为 中 心 的 区 间 , 它 的 宽度 足以 包含 该 分 布下 全 部 概率 的 95% 。 这 提供 了 一 
个 包围 errora 4) 的 区 间 , 使 errors (4h) 必定 有 95% 的 机 会 落 和 其中。 同样 , 它 也 指定 了 er- 
rorA h) 95% 的 机 会 落 人 包围 errors(h) 的 区 间 的 大 小 。 

对 于 给 定 的 N 值 ,如 何 计算 区 间 大 小 以 使 其 包含 N% 的 概率 质量 ? 对 于 二 项 分 布 来 说 这 
一 计算 十 分 烦琐 。 然 而 多 数 情况 下 可 以 找到 一 近似 ,使 计算 过 程 更 容易 。 这 基于 如 下 事实 : 即 
对 于 足够 大 的 样本 ,二 项 分 布 可 以 很 好 地 由 正 态 分 布 来 近似 。 正 态 分 布 (在 表 5-4 中 概述 ) 是 
统计 学 中 研究 得 最 透彻 的 概率 分 布 之 一 。 如 表 5-4 所 示 , 正 态 分 布 是 一 钟 形 分 布 ,由 其 均值 y 
和 标准 差 o 完全 定义 。 对 于 大 的 n ,二 项 分 布 非常 近似 于 一 个 同样 均值 和 方差 的 正 态 分 布 。 


表 5-4 正 态 或 高 斯 分 布 


均值 为 0, 标准 差 为 ! 的 正 态 分 布 


-3 -2 -i 0 i 2 3 


一 个 正 态 分 布 (也 被 称 为 高 斯 分 布 ) 是 一 钟 弄 分布 , 它 定义 为 下 面 的 概率 密度 函数 : 


e-4( N 





p(x)= 7a 

一 个 正 态 分 布 由 上 面 公式 中 的 两 个 参数 完全 确定 :y Mo 
如 果 随机 变量 X ARESA, M: 
© XX 落 人 到 (a, 5) 的 概率 为 ; 

Mer” 
@ XX 的 期 望 值 或 均值 E[X] 为 : 

E(X]s4 
© =X WH Var(X)H: 

Var(X)=0 
@ 的 标准 差 为 ox 为 : 

ox=0 


中 心 极限 定理 (第 5.4.1 节 ) 说 明 , 大 量 独立 同 分 布 的 随机 变量 的 和 遵循 的 分 布 近似 为 正 态 分 布 
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之 所 以 使 用 正 态 分 布 来 代替 ,原因 之 一 是 多 数 统计 参考 都 用 列表 给 出 了 正 态 分 布下 关于 
均值 的 包含 N% 的 概率 质量 的 区 间 的 大 小 。 这 就 是 计算 N% 置信 区 间 所 需 的 信息 。 实 际 上 
表 5-1 正 是 这 样 一 个 表 。 表 5-1 中 给 定 的 常数 zw 定义 的 是 在 钟 形 正 态 分 布下 ,包含 N% 概 
率 质 量 的 关于 均值 的 最 小 区 间 的 宽度 。 更 精确 地 说 , zw 以 标准 差 给 定 了 区 间 的 半 宽 度 ( 即 在 
任 一 方向 距 均 值 的 距离 ) ,图 5-1a 给 出 了 针对 zo so 的 一 个 区 间 。 





a) 在 80% 置 信和 度 下 ,随机 变量 值 位 于 双 侧 区 间 [ - 1.28, 1.28] 之 间 。 注 意 zg) = 1.28。 有 10% 置信 度 其 
落 信 区间 左 侧 ,10% 落 入 区 间 右 侧 。b) 在 90% 置信 和 度 下 ,随机 变量 位 于 单 侧 区 间 [ - œ, 1.28] 上 
图 5-1 均值 为 0, 标准 差 为 1 的 正 态 分 布 


总 而 言 之 ,如 果 随 机 变量 Y 服从 均值 为 ,标准 差 为 o 的 一 个 正 态 分 布 ,那么 了 的 任 一 观 
BUA y 有 NN% 的 机 会 落 入 下 面 的 区 间 : 


pet ZNO (5.10) 
相似 地 ,均值 x ANG 的 机 会 落 和 下面 的 区 间 : 
yt zn (5.11) 


很 容易 将 此 结论 和 前 面 的 结论 结合 起 来 ,推导 式 (5.1) 的 离散 值 假设 的 N% 置信 区 间 的 
一 般 表达 式 。 首 先 , 由 于 errors(h) 遵 从 二 项 分 布 ,其 均值 为 errorg (4) ,标准 差 如 式 (5.9) 所 
示 。 其 次 ,我 们 知道 对 于 足够 大 的 样本 n ,二 项 分 布 非常 近似 于 正 态 分 布 。 第 三 , 式 (5.11) 告 
诉 我 们 如 何 为 估计 正 态 分 布 的 均值 求 出 N% 置信 区 间 。 因 此 ,将 errors (有 ) 的 均值 和 标准 差 
代入 到 式 (5.11) 中 将 得 到 式 (5.1) 中 对 离散 值 假设 的 N% 置信 区 间 为 : 


errors(h) + zya ZU - errors(h)) 


回忆 一 下 ,在 表达 式 的 推导 中 有 两 个 近似 : 
1) 估计 errors h RREZ o 时 ,我 们 将 errorg (4) 近 似 为 errors(h)[ 如 从 式 (5.8) 到 
式 (5.9) 的 推导 ]。 、 
2) 用 正 态 分 布 近似 二 项 分 布 。 
统计 学 中 的 一 般 规则 表明 ,这 两 个 近似 在 nn = 30 BR np(1- pP)>=>5 时 工作 得 很 好 。 对 于 
较 小 的 n 值 ,最 好 使 用 列表 的 形式 给 出 二 项 分 布 的 具体 值 。 


5.3.6” 双 侧 和 单 侧 边 界 


上 述 的 置信 区 间 是 双 侧 的 , 即 它 规定 了 估计 量 的 上 界 和 下 界 。 在 某 些 情况 下 ,可 能 要 用 到 
单 便 边 界 。 例 如 ,提出 问题 “errors (h) BAW U 的 概率 "。 在 只 要 限定 h 的 最 大 错误 率 ,而 
不 在 乎 真实 错误 率 是 否 小 于 估计 错误 率 时 ,很 自然 会 提出 这 种 问题 。 
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只 要 对 上 述 的 过 程 作 一 小 的 修改 就 可 计算 单 侧 错误 率 边界 。 它 所 基于 的 事实 为 正 态 分 布 
关于 其 均值 对 称 。 因 此 ,任意 正 态 分 布 上 的 双 侧 置信 区 间 能 够 转换 为 相应 的 单 侧 区 间 , 置 信 度 
为 原来 的 两 倍 ( 见 图 5-1b)。 换 言 之 ,由 一 个 有 下 界 L 和 上 界 U 的 100(1 - a)% 置信 区 间 , 可 
得 到 一 个 下 界 为 卫 且 无 上 界 的 100(1 - a/2)% 置信 区 间 ,同时 也 可 得 出 一 个 有 上 界 U BOP 
界 的 100(1 - 2 /2)% 置信 区 间 。 这 里 a 对 应 于 真实 值 落 在 指定 区 间 外 的 概率 。 换 名 话说 ,wa 
是 真实 值 落 人 图 5-1a 中 无 阴影 部 分 的 概率 , 0/2 是 落 人 图 5-1b 的 无 阴影 部 分 的 概率 。 

为 说 明 这 一 点 ,再 次 考虑 产生 7 = 12 个 错误 且 样 本 大 小 n = 40 的 这 个 例子 。 如 上 所 
述 , 它 导致 一 个 双 侧 的 95% 置信 区 间 0.3+0.14。 其 中 100(1 - a) = 95% ,所 以 a =0.05。 因 
此 ,应 用 以 上 规则 ,可 得 有 100(1 - a/2) = 97.5% 的 置信 度 errory (h) RBH 0.304+0.14= 
0.44, MAE errorg (h) 的 下 界 。 因 此 在 errora (关上 的 单 侧 错 误 率 边 界 比 相应 的 双 侧 边界 
有 双 倍 的 置信 和 度 (见习 题 5.3)。 


5.4 推导 置信 区 间 的 一 般 方法 


前 一 节 介 绍 的 是 针对 一 特定 情况 推导 置信 区 间 估 计 : 基 于 独立 抽取 的 n 个 样本 ,估计 离 
散 值 假设 的 errory (h)。 本 节 介 绍 的 方法 是 在 许多 估计 间 题 中 用 到 的 通用 的 方法 。 确 切 地 
讲 , 我 们 可 以 将 此 看 作 是 基于 大 小 为 n 的 随机 抽取 样本 的 均值 ,来 估计 总 体 均值 的 问题。 

通用 的 过 程 包含 以 下 步骤 : 

1) 确定 基准 总 体 中 要 估计 的 参数 p ,例如 errory (h)o 

2) 定义 一 个 估计 量 了 (如 errors(h)), 它 的 选择 应 为 最 小 方差 的 无 偏 估 计量 。 

3) 确定 控制 估计 量 Y HBOS ,包括 其 均值 和 方差。 

4) BSR LAU 确定 N% 置信 区 间 ,以 使 这 个 按 DA 分 布 的 随机 变量 有 NN% 机 会 

HA LAUZA 

后 面 的 几 节 ,将 该 通用 的 方法 应 用 到 其 他 几 种 机 器 学 习 中 常见 的 估计 问题 中 去 。 首 先 我 

们 需要 讨论 估计 理论 的 一 个 重要 成 果 , 称 为 中 心 极 限定 理 (Central Limit Theorem). 





中 心 极限 定理 


中 心 极限 定理 是 简化 置信 区 间 推 导 的 一 个 基本 根据 。 考 虑 如 下 的 一 般 框 架 : 在 ”个 独立 
抽取 的 且 服 从 同样 概率 分 布 的 随机 变量 了 Y, 中 观察 实验 值 (如 一 硬币 的 HUBS). Sp 
代表 每 一 变量 Y 服从 的 未 知 分 布 的 均值 ,并 令 o 代表 标准 差 , 称 这 些 变量 Y; 为 独立 同 分 布 
(independent, identically distributed) 随 机 变量 ,因为 它们 描述 的 是 各 自 独立 并 且 服 从 同样 概率 
分 布 的 实验 。 为 估计 Y; 服从 的 分 布 的 均值 w ,我 们 计算 样本 的 均值 了 ,= 二 Y; (Mn 
UPB RET HP HY BEE AY EG Bl). PL AR PRE RB En 00 YY, 所 服从 的 概率 分 布 为 一 
正 态 分 布 ,而 不 论 Y; 本 身 服从 什么 样 的 分 布 。 更 进一步 讲 , 了 , 服从 的 分 布 均值 为 y 而 且 标 


准 差 为 广 ,精确 的 定义 如 下 : 


定理 5.1: 中 心 极限 定理 考虑 独立 同 分 布 的 随机 变量 Yi.. Y, 的 集合 ,它们 服从 一 任意 的 概率 分 布 ， 
均值 为 x, 有 限 方差 为 22。 定 义 样本 均值 7。 = 0" Y; , 则 当 n> 时 下 面 的 式 子 ; 
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服从 一 正 态 分 布 ,均值 为 0 且 标 准 差 为 1。 


这 一 结论 非常 令 人 吃惊 ,因为 它 说 明 在 不 知道 独立 的 7; 所 服从 的 基准 分 布 的 情况 下 ,我 
们 可 以 得 知 样本 均值 了 的 分 布 形式 。 更 进一步 说 ,中 心 极限 定理 说 明了 怎样 使 用 了 的 均值 
和 方差 来 确定 独立 的 7; 的 均值 和 方差 。 

中 心 极限 定理 是 一 个 非常 有 用 的 结论 ,因为 它 表 示 任 意 样本 均值 的 估计 量 ( 如 errors (4h) 
为 平均 错误 率 ) 服 从 的 分 布 在 n 足够 大 时 可 近似 为 正 态 分 布 。 如 果 还 知道 这 一 近似 的 正 态 分 
布 的 方差 ,就 可 用 式 (5.11) 来 计算 置信 区 间 。 一 个 通常 的 规则 是 在 n=30 时 可 使 用 这 一 近 
似 。 前 面 的 章节 我 们 正 是 使 用 了 正 态 分 布 来 近似 地 描述 errors(h) 服 从 的 二 项 分 布 。 


5.5 两 个 假设 错误 率 间 的 差异 


现在 考虑 对 某 离 散 目标 函数 有 两 个 假设 和 hr IR hi 在 一 拥有 mi 个 随机 抽取 的 样 
例 的 样本 Sı 上 测试 , 且 h, 在 拥有 no 个 从 相同 分 布 中 抽取 的 样 例 的 样本 S, 上 测试 。 假 定 要 
估计 这 两 个 假设 的 真实 错误 率 间 的 差异 : 
d x error A hı) - errorg hz) 
可 使 用 第 5.4 节 中 描述 的 四 个 步骤 来 推导 d 的 置信 区 间 估 计 。 在 确定 d 为 待 估计 的 参 
数 后 ,下 面 要 定义 一 估计 量 。 显 然 ,这 里 可 选择 样本 错误 率 之 间 的 差异 作为 估计 量 , 标 记 为 d: 
d= errors, (hy) - errors ( hy) 
在 此 虽 不 加 证 明 , 但 可 以 认为 4 即 为 d 的 无 偏 估计 量 , 即 E[ 9] = do 
随机 变量 d 服从 的 概率 分 布 是 什么 ? 从 前 面 的 章节 中 ,我 们 知道 对 于 较 大 的 ni 和 zz( 比 
如 都 =30) ,errors (Ai) 和 errors,( ja) 都 近似 遵从 正 态 分 布 。 由 于 两 正 态 分 布 的 差 仍 为 一 正 
态 分 布 ,因此 4 也 近似 遵从 正 态 分 布 ,均值 为 4。 同 时 ,可 得 出 该 分 布 的 方差 为 errors (Chi) ® 
errors,(h2) 的 方差 的 和 。 使 用 式 (5.9) 获 得 这 两 个 分 布 的 近似 方差 : 


he errors (hy) (1 - errors ( hy)) . errors (h2)( 二 errors ( h)) (5.12) 
ny 
现在 已 确定 了 估计 量 4 所 服从 的 概率 分 布 ,很 容易 推导 出 置信 区 间 以 说 明 使 用 d 来 估计 
d 的 可 能 误差 。 随 机 变量 4 服从 均值 方差 o? 的 正 态 分 布 ,其 No 置信 区 间 估 计 为 G+ zwo。 
使 用 上 面 给 出 的 方差 中 的 近似 值 , d 的 近似 的 N% 置信 区 间 估 计 为 : 
errors (hy)(1 - errors (hy)) ， errors ha) (1 - errors ( h,)) 
ny n2 
其 中 zw 是 表 5-1 中 描述 的 常数 。 上 式 给 出 了 一 般 的 双 侧 置信 区 间 , 以 估计 两 个 假设 错 
误 率 之 间 的 差异 。 有 时 可 能 需要 某 一 置信 度 下 的 单 侧 的 边界 一 一 要 么 界定 最 大 可 能 差异 ,要 
么 为 最 小 的 可 能 差异 。 单 侧 置 信 区 间 可 以 通用 第 5.3.6 节 中 描述 的 方法 修改 上 式 而 得 到 。 
虽然 上 面 的 分 析 考虑 的 是 hi 和 h, 在 相互 独立 的 数据 样本 上 测试 的 情况 ,但 是 在 一 个 样 
本 S(S DREF h 和 hy) EWR hy 和 h 并 用 公式 (5.13) 计 算 置 信 区 间 遂 常 也 是 可 接受 


Wo R, d 被 重新 定义 为 ; 








(5.13) 





dtzy 











d =errors(h,) - errors( h2) 
当 使 用 $ 来 代替 S 和 $; 时 ,新 的 d 中 的 方差 通常 小 于 式 (5.12) 给 出 的 方差 。 这 是 因为 
使 用 单个 的 样本 $ 消除 了 由 S 和 S. 的 组 合 带 来 的 随机 差异 。 这 样 ,由 式 (5.13) 给 出 的 置信 
区 间 一 般 说 来 会 过 于 保守 ,但 仍然 是 正确 的 。 


假设 检验 


有 时 我 们 感 兴趣 的 是 某 个 特定 的 猜想 正确 的 概率 ,而 不 是 对 某 参 数 的 置信 区 间 估 计 。 比 
如 下 面 的 问题 ,“errorok hy) > error h2) 的 可 能 性 有 多 大 ?”"。 仍 使 用 前 一 节 的 条 件 设 定 ,假定 
要 测量 hy All hy 的 样本 错误 率 , 使 用 大 小 为 100 的 独立 样本 Sı 和 S,,3¢ A AL errors (h 1) = 
0.30 E. errors (h2) = 0.20, 因此 差异 d 为 0.10。 当 然 , 由 于 数据 样本 的 随机 性 ,即使 
errorA hy) < error 以 ja), 仍 有 可 能 得 到 这 样 的 差异 。 在 这 里 ,给 定 å =0.10, error.A hy) > 
errorA hy) 的 概率 是 多 少 ? 与 此 相对 应 ,如 何 计 算 在 d = 0.10, d >0 的 概率 ? 

注意 ,概率 Pr( d > 0) 等 于 dg 对 d 的 过 高 估计 不 大 于 0.1 的 概率 ,也 就 是 这 个 概率 为 d 落 人 
单 侧 区 间 d < d + 0.10 的 概率 。 由 于 d 是 d 所 服从 的 分 布 的 均值 ,上 式 等 价 于 d < ja + 0.10。 

概括 地 说 ,概率 Pr(d > 0) 等 于 d 落 入 单 侧 区 间 d < pg + 0.10 的 概率 。 由 于 前 一 节 我 们 已 计算 
出 d 的 大 致 分 布 ,就 可 以 通过 2 分 布 在 该 区 间 的 概率 质量 来 确定 d 落 入 这 个 单 侧 区 间 的 概率 。 

首先 ,将 区 间 d < ya + 0.10 用 允许 偏离 均值 的 标准 差 的 数目 来 重新 表示 。 使 用 式 (5.12) 
可 得 ,ca=0.061, 所 以 这 一 区 间 可 近似 表示 为 : 

d< Ha + 1.6403 

与 此 正 态 分 布 的 单 侧 区 间 相 关联 的 置信 度 是 多 少 呢 ? 查 表 5-1 可 得 ,关于 均值 的 1.64 标 
准 差 对 应 置信 和 度 90% 的 双 侧 区 间 。 因 此 这 个 单 侧 区 间 具 有 95% 的 置信 度 。 

因此 ,给 定 观 察 到 的 d =0.1, errorof h) > errorg( hy) 的 概率 约 为 0.95。 根 据 统 计 学 的 术语 可 
FORA PE (accept) “error hy) > error 民 如) 这 一 假设 ,置信 度 为 0.95。 换 一 种 说 法 可 表述 为 :我 
们 拒绝 (reject) 对 立 假设 ( 常 称 为 零 假设 ), 以 (1 - 0.95) = 0.05 的 显著 水 平 (significance level). 


5.6 学 习 算 法 比较 


有 时 我 们 更 感 兴趣 的 是 比较 两 个 学 习 算 法 L 和 Ls 的 性 能 ,而 不 是 两 个 具体 的 假设 本 
身 。 怎 样 近似 地 检验 多 个 学 习 算法 ,如 何 确定 两 个 算法 之 间 的 差异 在 统计 上 是 有 意义 的 ? 虽 
然 , 在 机 器 学 习 研 究 领域 ,关于 学 习 算法 比较 哪个 方法 最 好 仍 存 在 激烈 的 争论 ,不 过 这 里 介绍 
了 一 个 合理 的 途径 。 关 于 不 同方 法 的 讨论 见 Dietterich( 1996)。 

通常 , 先 指定 要 估计 的 参数 。 假 定 有 Ly 和 Ls 两 个 算法 ,要 确定 为 了 学 习 一 特定 目标 限 
数 f, 平 均 来 说 那个 算法 更 好 。 定 义 “ 平 均 ” 的 一 种 合理 方法 是 ,从 一 基准 实例 分 布 Z 中 抽取 包 
Aon 个 样 例 的 训练 集合 ,在 所 有 这 样 的 集合 中 测量 两 个 算法 的 平均 性 能 。 换 名 话说 ,需要 估 
计 假 设 错误 率 之 间 差 异 的 期 望 值 : 

Ederrord La(S)) ~ errora La S))] (5.14) 

其 中 , L( 5S) 代表 在 给 定 训 练 数据 的 样本 S 时 ,学 习 算法 二 输出 的 假设 ,下 标 SC 终 表示 
期 望 值 是 在 基准 分 布 Z 中 抽取 的 样本 S 上 计算 。 上 述 表 达 式 描述 的 是 学 习 算 法 La 和 La 之 
间 的 差异 的 期 望 值 。 
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在 实际 的 学 习 算法 比较 中 ,我 们 只 有 一 个 有 限 的 样本 Do。 在 这 种 情况 下 ,很 显然 ,要 估计 上 

述 的 量 需要 将 Do 分 割 成 训练 集合 So 和 与 之 不 相交 的 测试 集合 Ta。 训练 数据 可 以 用 来 既 训 练 
又 训练 La, 而 测试 数据 则 用 来 比较 两 个 学 习 到 的 假设 的 准确 度 ,也 就 是 使 用 下 式 来 计算 : 

errorr (L4(So)) - errorr,( Lg( So) (5.15) 


上 式 与 式 (5.14) 的 计算 有 两 个 重要 的 不 同 。 首先 我 们 使 用 error (h) RUE errorÁ h)o 
其 次 ,错误 率 的 差异 测量 是 在 一 个 训练 集合 So 上 ,而 不 是 在 从 分 布 多 中 抽取 的 所 有 的 样本 S 
上 计算 期 望 值 。 
改进 式 (5.15) 的 一 种 方法 是 将 数据 Do 多 次 分 割 为 不 相交 的 训练 和 测试 集合 ,然后 在 其 
中 计算 这 些 不 同 的 试验 的 错误 率 的 平均 值 。 这 一 过 程 在 表 5-5 中 列 出 , 它 在 一 可 用 的 固定 数 
据 样 本 D。 上 估计 两 个 学 习 算 法 错误 率 之 间 的 差异 。 该 过 程 首先 将 数据 拆 分 为 上 个 不 相交 的 
相等 子 集 , 子 集 大 小 至 少 为 30, 然 后 训练 和 测试 算法 次 ,每 次 使 用 其 中 一 个 子 集 作 为 测试 数 
据 集 ,其 他 -1 个子 集 为 训练 集 。 使 用 这 种 办 法 ,学 习 算 法 在 个 独立 测试 集 上 测试， 而 把 
错误 率 的 差异 的 均值 8 作为 两 个 学 习 算 法 间 差 异 的 估计 。 
表 5-5 估计 两 个 学 习 算法 La 和 Le 错误 率 差异 的 过 程 
ETARE D, 分 制 成 个 相同 大 小 的 不 相交 子 集 71，7;，...，T4。 其 大 小 至 少 为 30 
2. 令 i 从 1 到 上 循环 ,做 下 面 的 操作 : 
使 用 7; 作为 测试 集合 ,而 剩余 的 数据 作为 训练 集合 S: 
@ S~} Do- T;} 
@ haw La(S,) 
@ hr Lel Si) 


@ 5;—errorr (ha) - errory (hg) 


3. 返回 值 $ ,其 中 


S35, (5.16) 
a _  ” 
注 ; 近似 的 置信 区 间 将 在 正文 中 给 出 。 
表 5-5 返回 的 5 可 被 用 作对 公式 (5.14) 所 需 的 量 的 一 个 估计 。 更 合适 的 说 法 是 把 6 看 


作 是 下 式 的 估计 : 


ar 


E Cerrar sd La $)) = errors La( $))] (5.17) 


H,s 代表 一 个 大 小 为 1 Dol BMA Do 中 均匀 抽取 出 的 随机 样本 。 在 该 式 和 式 
(5.14) 中 最 初 的 表达 式 之 间 ， 惟 。 的 差别 在 于 其 期 望 信 的 计算 是 在 可 用 数据 Do 的 子 集 上 计 
算 , 而 不 是 在 从 整个 分 布 多 上 抽取 的 子 集 上 计算 。 


估计 式 (5.17) 的 近似 的 N 置信 区 间 ,可 用 6 表示 为 : 
© + ty, 4-185 (5.18) 


其 中 ty, ， 是 一 常数 ,其 意义 类 似 于 前 面 置信 区 间 表 达 式 中 的 zn M ss 代表 对 6 所 服从 
的 概率 分 布 的 标准 差 的 估计 ,更 确切 地 讲 , 5 的 定义 为 : 


-LT SACE, (5.19) 
注意 , 式 (5.18) 中 的 常量 ty, 5-1 有 两 个 下 标 。 的 
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zy 中 那样 。 第 二 个 参数 称 为 自由 度 (degree of freedom), 常 被 记 作 v, 它 与 生成 随机 变量 5 的 
值 时 独立 的 随机 事件 数目 相关 。 在 当前 的 条 件 下 ,自由 度数 值 为 -1。 参 数 i 的 几 种 取 值 在 
表 5-6 PRI. TERY ko ont ty, -1 的 值 趋向 于 常数 zw。 

表 5-6 双 侧 置信 区 间 tw,, 的 值 





置信 和 度 N 

90% 95% 98% 99% 
v=2 2.92 4.30 6.96 9.92 
v=5 2.02 2.57 3.36 4.03 
v=10 1.81 2.23 2.76 3.17 
v = 20 1.72 2.09 2.53 2.84 
v = 30 1.70 2.04 2.46 2.75 
v = 120 1,66 1.98 2.36 2.62 
v=% 1.64 1.96 2.33 2.58 


注 : 当 v— ok}, ty ABET yo 

注意 ,这 里 描述 的 比较 学 习 算 法 的 过 程 要 在 同样 的 测试 集合 上 测试 两 个 假设 。 这 与 5.5 
节 中 描述 的 比较 两 个 用 独立 测试 集合 评估 过 的 假设 不 同 。 使 用 相同 样本 来 测试 假设 被 称 为 配 
对 测试 (paired test)。 配 对 测试 通常 会 产生 更 紧密 的 置信 区 间 。 因 为 在 配对 测试 中 任意 的 差 
异 都 来 源 于 假设 之 间 的 差异 。 相 反 , 若 假设 在 分 开 的 数据 样本 上 的 测试 ,两 个 样本 错误 率 之 间 
的 差异 也 可 能 部 分 来 源 于 两 个 样本 组 成 上 的 不 同 。 
5.6.1 配对 上 测试 

上 面 描述 了 在 给 定 固 定数 据 集 时 比较 两 个 学 习 算 法 的 过 程 。 本 节 讨 论 这 一 过 程 以 及 
式 (5.18) 和 式 (5.19) 中 置信 区 间 的 统计 学 论证 。 如 果 第 一 次 阅读 ,为 不 失 连 续 性 可 以 跳 过 它 。 

为 了 理解 式 (5.18) 中 的 置信 区 间 ,考虑 以 下 的 估计 问题 : 

e 给 定 一 系列 独立 同 分 布 的 随机 变量 Yi, Ya... Y, 的 观察 值 。 

o 要 估计 这 些 Y, 所 服从 的 概率 分 布 的 均值 ws。 

o 使 用 的 估计 量 为 样本 均值 了 。 


— 1 k 
了 = 友之 六 


这 一 基于 样本 均值 了 估计 分 布 均值 y 的 问题 非常 普遍 。 例 如 , 它 覆 盖 了 早先 用 
errors(h ) 来 估计 error kh) M(H, Y; 为 0 或 1 表示 h 是 否 对 一 单独 的 $ 样 例 产 生 误 
分 类 ,而 error 上) 为 基准 分 布 的 均值 w)。 由 式 (5.18) 和 式 (5.19) 描 述 的 测试 应 用 于 该 问 
题 的 一 特殊 情形 一 一 即 每 个 单独 的 都 遵循 正 态 分 布 。 

现 考虑 表 5-5 比较 学 习 算 法 的 过 程 的 一 个 理想 化 形式 。 假 定 不 是 拥有 固定 样本 数据 Do, 
而 是 从 基准 实例 分 布 中 抽取 新 的 训练 样 例 。 在 这 里 我 们 修改 表 5-5 中 的 过 程 ,使 每 一 次 循环 
生成 新 的 随机 训练 集 5; 和 新 的 随机 测试 集 7 ,生成 方法 是 从 基准 实例 分 布 中 抽取 而 不 是 从 
固定 样本 Do 中 抽取 。 这 一 理想 化 方法 能 很 好 地 匹配 上 面 的 估计 问题 ,特别 是 该 过 程 所 测量 
的 6; 现在 对 应 到 独立 同 分 步 的 随机 变量 了 ,其 分 布 的 均值 y 对 应 两 学 习 算法 错误 率 的 期 望 
差异 (如 式 ($.14)) ,样本 均值 了 为 这 一 理想 化 方法 计算 出 的 6。 我 们 希望 回答 “6 是 否 能 较 好 
地 估计 y?" 这 一 问题 。 

首先 注意 到 ,测试 集 T; 至 少 包含 30 个 样 例 。 因 此 ,单独 的 6; 将 近似 遵循 正 态 分 布 (由 中 
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心 极限 定理 )。 因 此 ,我 们 有 一 特殊 条 件 即 Y; 服从 近似 的 正 态 分 布 。 我 们 知道 ,一 般 当 每 个 
Y; 遵循 正 态 分 布 时 ,样本 均值 了 也 遵循 正 态 分 布 。 由 此 ,可 以 考虑 使 用 前 面 计 算 置 信 区 间 的 
表达 式 ( 式 (5.11)) ,其 中 的 估计 量 正 遵循 正 态 分 布 。 然 而 ,该 公式 要 求 我 们 知道 这 个 分 布 的 标 
准 差 , 但 现在 标准 差 未 知 。 
t 测试 正好 用 于 这 样 的 情形 , 即 估 计 一 系列 独立 同 正 态 分 布 的 随机 变量 的 样本 均值 。 在 
这 里 ,可 使 用 式 (5.18) 和 式 (5.19) 中 的 置信 区 间 , 它 可 被 重新 表述 为 : 
=Y Łty,k-1SF 


其 中 ,sy 为 估计 的 样本 均值 的 标准 差 : 


| k 
sy = Wr 1) 2 Y;- YY 
这 里 ,iw, ;-1 是 一 个 类 似 于 前 面 的 zw 的 常量 。 实 际 上 ,常量 ty, r 1 描述 的 是 被 称 为 1 分 布 
的 概率 分 布下 的 区 域 ,正如 常数 zw 描述 了 正 态 分 布下 的 区 域 。: 分 布 是 一 类 似 于 正 态 分 布 的 钟 
形 分 布 ,但 更 宽 且 更 矮 ,以 反映 由 于 使 用 sy 来 近似 真实 的 标准 差 oy 时 带 来 的 更 大 的 方差 。 当 上 
趋 近 于 无 穷 时 ,上 分 布 趋 近 于 正 态 分 布 (因此 , ty, 1- EF zw)。 这 在 直觉 上 是 正确 的 ,因为 我 
们 希望 样本 规模 大 增加 时 sy 收敛 到 真实 的 标准 差 ,并 且 当 标准 差 确 切 已 知 时 可 使 用 zw。 


5.6.2 实际 考虑 


上 面 的 讨论 证 明了 在 使 用 样本 均值 来 估计 一 个 包含 不 个 独立 同 正 态 分 布 的 随机 变量 的 
样本 均值 时 ,可 使 用 式 (5.18) 来 估计 置信 区 间 。 该 结论 在 我 们 的 理想 化 方法 中 是 合适 的 , 即 假 
定 对 于 目标 函数 的 样 例 可 进行 无 限 存 取 。 在 实际 中 , 若 数据 集 Do 有 限 , 且 算 法 使 用 表 5-5 HH 
述 的 实际 方法 ,这 一 证 明 并 不 严格 适用 。 实 际 的 问题 是 ,为 产生 8 只 有 重新 采样 Do, 用 不 同 
的 方法 把 它 分 割 为 测试 集 和 训练 集 。 此 时 6; 相互 之 间 并 不 独立 ,因为 它们 基于 从 有 限 子 集 
Do 中 抽取 的 相互 重 双 的 训练 样 例 , 而 不 是 从 整个 分 布 多 中 抽取 的 样 例 。 

当 只 有 一 个 有 限 的 数据 样本 Do 可 用 时 ,有 几 种 方法 可 被 用 来 重 采 样 D。。 表 5-5 描述 的 
是 -fold 方 法 ,其 中 Do 被 分 为 个 不 相交 的 等 大 小 的 子 集 。 在 这 种 -fold FEA, Do 中 每 
一 样 例 都 有 一 次 用 于 测试 ,而 有 -1 次 用 于 训练 。 另 一 种 常用 的 方法 是 从 Do 中 随机 抽取 至 少 
有 30 个 样 例 的 测试 集合 ,再 用 剩余 的 样 例 来 训练 ,重复 这 一 过 程 直 到 足够 的 次 数 。 这 种 随机 
方法 的 好 处 是 能 够 重复 无数 次 ,以 减 小 置信 区 间 到 需要 的 宽度 。 相 反 ,k-fold 方法 受 限于 样 例 
的 总 数 ,这 是 因为 每 个 样 例 只 有 一 次 用 于 测试 , 且 希 望 样本 大 小 至 少 为 30。 然 而 ,随机 方法 的 
缺点 是 ,测试 集合 不 能 再 被 看 作 是 从 基准 实例 分 布 多 中 独立 抽取 。 相 反 , -fold 交叉 验证 生成 
的 测试 集合 是 独立 的 ,因为 一 个 实例 只 在 测试 集合 中 出 现 一 次 。 

概括 地 说 ,基于 有 限 数据 的 学 习 算法 的 比较 中 没有 一 个 单独 的 方法 能 满足 我 们 希望 的 所 
有 约束 。 有 必要 记 住 ,统计 学 模型 在 数据 有 限时 很 少 能 完美 地 匹配 学 习 算 法 验证 中 的 所 有 约 
束 。 然 而 ,它们 确实 提供 了 近似 的 置信 区 间 , 有 助 于 解释 学 习 算 法 的 实验 性 比较 。 








5.7 小 结 和 补充 读物 


本 章 的 要 点 包括 : | 
o 统计 理论 提供 了 一 个 基础 ,从 而 基于 在 数据 样本 5 上 的 观察 错误 率 errors(h), 估 计 假 
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设 SBIR error Lh). PUM, WR h 为 一 离散 值 假设 ,而 且 数 据 样本 包括 n> 
30 个 不 依赖 h 且 相 互 独立 的 样 例 时 ,那么 error Kh) A N% 置信 区 间 近 似 为 : 


errors(h) + ay sU ~ errors(h)) 


其 中 , zw 的 值 由 表 5-1 给 出 。 
o 一 般 来 说 ,估计 置信 区 间 的 问题 可 通过 确定 一 待 估计 的 参数 (如 error of h) VAR AAR 
的 估计 量 (errors (有)) 来 完成 。 由 于 估计 量 是 一 个 随机 变量 (如 errors(h) 依 赖 于 随机 
样本 $S), 它 可 由 其 服从 的 概率 分 布 来 描述 。 置 信 区 间 的 计算 可 通过 确定 该 分 布下 包含 
所 需 概率 质量 (probability mass) 的 区 间 来 描述 。 
o 估计 假设 精度 中 的 一 种 可 能 误差 为 估计 偏差 (estimation bias)。 如 果 Y 为 对 某 参 数 p 
的 估计 量 ,Y 的 估计 偏差 为 Y 的 期 望 值 和 p 之 间 的 差 。 例 如 ,如 果 S 是 用 来 形成 假设 
h 的 训练 数据 , 则 errors( 有 ) 给 出 了 真实 错误 率 errorsXh) 的 一 个 乐观 的 有 偏 估 计 。 
© 估计 产生 误差 的 第 二 种 原因 是 估计 方差 (variance)。 即 使 对 于 无 偏 估 计 , 估 计量 的 观察 
值 也 有 可 能 在 各 实验 中 不 同 。 估 计量 分 布 的 方差 o? 描述 了 该 估计 与 真实 值 的 不 同 有 
多 大 。 该 方差 在 数据 样本 增 大 时 降低 。 
© 比较 两 学 习 算法 效果 的 问题 在 数据 和 时 间 无 限时 是 一 个 相对 容易 的 估计 问题 ,但 在 资 
源 有 限时 要 困难 得 多 。 本 章 描述 的 一 种 途径 是 在 可 用 数据 的 不 同 子 集 上 运行 学 习 算 
法 ,在 剩余 数据 上 测试 学 到 的 假设 ,然后 取 这 些 实验 的 结果 平均 值 。 
o 在 这 里 所 考虑 的 多 数 情 况 下 ,推导 置信 区 间 需 要 进行 多 个 假定 和 近似 。 例 如 上 面 的 
erroroKh) 的 置信 区 间 和 需要 将 二 项 分 布 近似 为 正 态 分 布 ;近似 计算 分 布 的 方差 ;以 及 假 
定 实例 从 一 固定 不 变 的 概率 分 布 中 生成 。 基 于 这 些 近 似 得 到 的 区 间 只 是 近似 置信 区 
间 , 但 它们 仍 提供 了 设计 和 解释 机 器 学 习 实 验 结果 的 有 效 指导 。 
本 章 介 绍 的 关键 统计 学 定义 在 表 5-2 中 列 出 。 
使 用 统计 的 方法 来 估计 和 测试 假设 这 一 主题 有 大 量 的 文献 。 本 章 只 介绍 了 基本 概念 , 细 
节 的 问题 可 在 许多 书籍 和 文章 中 找到 。Billingsley et al. (1986) 提 供 了 对 统计 学 的 一 个 很 简明 
的 介绍 ,详尽 描述 了 这 里 所 讨论 的 一 些 问题 。 其 他 文献 包括 DeGroot(1986) , Casella & Berger 
(1990). Duda & Hart(1973) 在 数值 模式 识别 领域 提出 了 对 这 些 问题 的 解决 办 法 。 
Segre et al. (1991,1996) „Etzioni & Etzioni(1994) 以 及 Gordon & Segre(1996) 讨 论 了 评估 
学 习 算 法 的 统计 意义 测试 ,算法 的 性 能 根据 其 改进 计算 效率 的 能 力 来 评测 。 
Ceman et al.(1992) 讨 论 了 在 同时 最 小 化 偏差 和 最 小 化 方差 之 间作 出 的 折 中 。 这 一 从 有 
限 数 据 中 学 习 和 比较 假设 的 主题 仍 在 争论 中 。 例 如 ,Dietterich(1996) 讨 论 了 在 不 同 的 训练 - 测 
试 数据 分 割 下 使 用 配对 差异 ; 测试 带 来 的 风险 。 
习题 
5.1 在 测试 一 假设 h 时 ,发 现在 一 包含 n = 1000 个 随机 抽取 样 例 的 样本 S 上 , 它 出 现 r= 
300 个 错误 。errors(4) 的 标准 差 是 什么 ? 将 此 结果 与 第 5.3.4 节 末尾 的 例子 中 标准 关 
相 比 较 会 得 出 什么 结论 ? 
5.2 考虑 某 布尔 值 概念 中 学 到 的 假设 A. Yh 在 100 个 样 例 的 集合 上 测试 时 ,有 83 个 分 类 
正确 。 那 么 真实 错误 率 error gl h) 的 标准 差 和 95% 置 信 区 间 各 是 多 少 ? | 
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5.3 REI h Fen = 65 的 独立 抽取 样本 上 出 现 + = 10 个 错误 ,真实 错误 率 的 90% 置信 区 
间 ( 双 侧 的 ) 是 多 少 ? 95% 单 侧 置 信 区 间 ( 即 一 个 上 界 U ,使 得 有 95% 置信 和 度 error 以 广 ) 
< U)#B>? 90% BMI KES? 

5.4 要 测试 一 假设 六, 其 errorAh) 已 知 在 0.2 到 0.6 的 范围 内 。 要 保证 95% 双 侧 置 信 区 间 
的 宽度 小 于 0.1, 最 少 应 搜集 的 样 例 数 是 多 少 ? 

5.5 对 于 在 不 同 数据 样本 上 测试 的 两 假设 错误 率 的 差 ,给 出 计算 单 侧 上 界 和 单 侧 下 界 的 
N% 置 信 区 间 的 通用 表达 式 。 

5.6 解释 为 什么 式 (5.18) 给 出 的 置信 区 间 估 计 可 用 于 估计 式 (5.17) ,而 不 能 估计 式 (5.14) 。 
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第 6 章 贝 叶 斯 学 习 


贝 叶 斯 推理 提供 了 推理 的 一 种 概率 手段 。 它 基于 如 下 的 假定 , 即 待考 查 的 量 遵 循 某 概率 
分 布 , 且 可 根据 这 些 概 率 及 已 观察 到 的 数据 进行 推理 ,以 作出 最 优 的 决策 。 贝 叶 斯 推理 对 机 器 
学 习 十 分 重要 ,因为 它 为 衡量 多 个 假设 的 置信 和 度 提供 了 定量 的 方法 。 贝 叶 斯 推理 为 直接 操作 
概率 的 学 习 算法 提供 了 基础 ,而 且 它 也 为 其 他 算法 的 分 析 提 供 了 理论 框架 。 


6.1 简介 


只 叶 斯 学 习 算法 同 我 们 的 机 器 学 习 研 究 相 关 有 两 个 原因 :首先 , 贝 叶 斯 学 习 算法 能 够 计算 
显 式 的 假设 概率 , 如 朴素 贝 叶 斯 分 类 器 , 它 是 解决 相应 学 习 问 题 的 最 实际 的 方法 之 一 。 例 如 ， 
Michie et al.(1994) 详 细 研 究 并 比较 了 朴素 贝 叶 斯 分 类 器 和 其 他 学 习 算法 ,包括 决策 树 和 神经 
网 络 。 他 们 发 现 朴 素 贝 叶 斯 分 类 器 在 多 数 情况 下 与 其 他 学 习 算 法 性 能 相当 ,在 某 些 情况 下 还 
优 于 其 他 算法 。 本 章 描述 了 朴素 贝 叶 斯 分 类 器 并 提供 了 一 个 详细 例子 , 即 它 应 用 于 文本 文档 
分 类 的 学 习 问 题 ( 如 电子 新 闻 分 类 )。 对 于 这 样 的 学 习 任 务 ,朴素 贝 叶 斯 分 类 是 最 有 效 的 算法 
之 一 。 
贝 叶 斯 方法 对 于 机 器 学 习 研究 的 重要 性 还 体现 在 它 为 理解 多 数学 习 算法 提供 了 一 种 有 效 
的 手段 ,而 这 些 算法 不 一 定 直接 操纵 概率 数据 。 例 如 ,本 章 分 析 了 第 2 BW FINp-S 和 候选 消 
除 算法 ,以 判断 在 给 定数 据 时 哪 一 个 算法 将 输出 最 有 可 能 的 假设 。 我 们 还 使 用 贝 叶 斯 分 析 证 
明了 神经 网 络 学 习 中 的 一 个 关键 性 的 选择 : 即 在 搜索 神经 网 络 空间 时 ,选择 使 误差 平方 和 最 小 
化 的 神经 网 络 。 我 们 还 推导 出 另 一 种 误差 函数 :交叉 炉 。 它 在 学 习 预 测 概率 目标 函数 时 比 误 
差 平 方 和 更 合适 。 本 章 还 用 贝 叶 斯 的 手段 分 析 了 决策 树 的 归纳 偏 置 , 即 优选 最 短 的 决策 树 ,并 
考查 了 密切 相关 的 最 小 描述 长 度 (Minimum Description Length) 原 则 。 对 贝 叶 斯 方法 的 基本 
了 解 对 理解 和 刻画 机 器 学 习 中 许多 算法 的 操作 很 重要 。 
贝 叶 斯 学 习 方法 的 特性 包括 : 
© 观察 到 的 每 个 训练 样 例 可 以 增 量 地 降低 或 升 高 某 假设 的 估计 概率 。 这 提供 了 一 种 比 其 
他 算法 更 合理 的 学 习 途 径 。 其 他 算法 会 在 某 个 假设 与 任 一 样 例 不 一 致 时 完全 去 掉 该 假 
设 。 
e@ 先 验 知识 可 以 与 观察 数据 一 起 决定 假设 的 最 终 概 率 。 在 贝 叶 斯 学 习 中 , 先 验 知识 的 形 
式 可 以 是 :(1) 每 个 候选 假设 的 先 验 概率 ; (2) 每 个 可 能 假设 在 可 观察 数据 上 的 概率 分 
布 。 
o 贝 叶 斯 方法 可 人 允许 假设 做 出 不 确定 性 的 预测 (比如 这 样 的 假设 :这 一 肺炎 病人 有 93% 
的 机 会 康复 )。 
e 新 的 实例 分 类 可 由 多 个 假设 一 起 作出 预测 ,用 它们 的 概率 来 加 权 。 
e 即使 在 贝 叶 斯 方法 计算 复杂 度 较 高 时 ,它们 仍 可 做 为 一 个 最 优 的 决策 的 标准 衡量 其 他 
方法 。 
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在 实践 中 应 用 贝 叶 斯 方法 的 难度 之 一 在 于 ,它们 需要 概率 的 初始 知识 。 当 这 些 概 率 预先 
未 知 时 ,可 以 基于 背景 知识 ,预先 准备 好 的 数据 以 及 关于 基准 分 布 的 假定 来 估计 这 些 概 率 。 另 
一 个 实际 困难 在 于 ,一 般 情 况 下 确定 贝 叶 斯 最 优 假设 的 计算 代价 比较 大 ( 同 候选 假设 的 数量 成 
线性 关系 ) 。 在 某 些 特定 情形 下 ,这 种 计算 代价 可 以 被 大 大 降低 。 

本 章 剩余 部 分 的 组 成 如 下 。 第 6.2 节 介 绍 了 贝 叶 斯 理论 ,并 定义 了 极 大 似 然 (maximum 
likelihood) 假 设 和 极 大 后 验 概率 假设 (maximum a posteriori probability hypotheses)。 接 下 来 的 
四 节 将 此 概率 框架 应 用 于 分 析 前 面 章 节 的 相关 问题 和 学 习 算 法 。 例 如 ,我 们 证 明了 在 特定 前 
提 下 , 几 种 前 述 的 算法 能 输出 极 大 似 然 假设 。 剩 余 的 几 节 则 介绍 了 几 种 直接 操作 概率 的 学 习 
算法 。 包 括 贝 叶 斯 最 优 分 类 器 Gibbs 算法 和 朴素 贝 叶 斯 分 类 器 。 最 后 ,我们 讨论 了 贝 叶 斯 信 
念 网 , 它 是 一 种 基于 概率 推理 的 较 新 的 学 习 方法 和 EM 算法 ,是 当 存 在 未 知 变量 时 被 广泛 使 用 
的 学 习 算法 。 


6.2 贝 叶 斯 法 则 


在 机 器 学 习 中 ,通常 我 们 感 兴趣 的 是 在 给 定 训练 数据 D 时 ,确定 假设 空间 H 中 的 最 佳 假 
设 。 所 谓 最 佳 (best) 假 设 , 一 种 办 法 是 把 它 定 义 为 在 给 定数 据 D 以 及 H 中 不 同 假设 的 先 验 概 
率 的 有 关 知 识 下 的 最 可 能 (most probable) 假 设 。 贝 叶 斯 理论 提供 了 一 种 直接 计算 这 种 可 能 性 
的 方法 。 更 精确 地 讲 , 贝 叶 斯 法 则 提供 了 一 种 计算 假设 概率 的 方法 , 它 基 于 假设 的 先 验 概率 、 
给 定 假设 下 观察 到 不 同 数 据 的 概率 以 及 观察 到 的 数据 本 身 。 

要 精确 地 定义 贝 叶 斯 理论 要 先 引 入 一 些 记 号 。 我 们 用 P(h) 来 代表 在 没有 训练 数据 前 假 
设 h 拥 有 的 初始 概率 。P(h) 常 被 称 为 h 的 先 验 概率 (prior probability ), 它 反映 了 我 们 所 拥 
有 的 关于 h 是 一 正确 假设 的 机 会 的 背景 知识 。 如 果 没 有 这 一 先 验 知识 ,那么 可 以 简单 地 将 每 
一 候选 假设 赋予 相同 的 先 验 概率 。 类 似 , 可 用 P(D) 代 表 将 要 观察 的 训练 数据 D 的 先 验 概率 
(换言之 ,在 没有 确定 某 一 假设 成 立时 D 的 概率 )。 下 一 步 ,以 P(D14) 代 表 假 设 h 成 立 的 情 
形 下 观察 到 数据 D 的 概率 。 一 般 情况 下 ,我 们 使 用 P(x1y) 代 表 给 定 y 时 x 的 概率 。 在 机 器 
学 习 中 ,我 们 感 兴趣 的 是 P(h1D), 即 给 定 训练 数据 D 时 成 立 的 概率 。P(h1D) 被 称 为 h 
的 后 验 概率 (posterior probability) ,因为 它 反映 了 在 看 到 训练 数据 Dah 成 立 的 置信 和 度 。 注 
意 , 后 验 概率 P(h1D) 反 映 了 训练 数据 D 的 影响 ;相反 , 先 验 概率 P(h) 是 独立 于 D 的 。 

贝 叶 斯 法 则 是 贝 叶 斯 学 习 方法 的 基础 ,因为 它 提 供 了 从 先 验 概率 PCR) PCD) A 
P(D1h) 计 算 后 验 概率 P(h1D) 的 方法 。 

贝 叶 斯 公式 : 


Pehi p) = (6.1) 


从 直观 上 可 以 看 出 , P(h1D) 随 着 P(h) Am P(D14h) 的 增长 而 增长 ;同时 也 可 看 出 
P(h1D) 随 P(D) 的 增加 而 减少 。 这 是 很 合理 的 ,因为 如 果 D 独立 于 h 时 被 观察 到 的 可 能 性 
越 大 ,那么 D 对 上 的 支持 度 越 小 。 

在 许多 学 习 场景 中 ,学 习 器 考虑 候选 假设 集合 H 并 在 其 中 寻找 给 定数 据 D 时 可 能 性 最 
大 的 假设 hE H( 或 者 存在 多 个 这 样 的 假设 时 选择 其 中 之 一 )。 这 样 的 具有 最 大 可 能 性 的 假设 
被 称 为 极 大 后 验 (maximum a posteriori，MAP) 假 设 。 确 定 MAP 假设 的 方法 是 用 贝 叶 斯 公式 
计算 每 个 候选 假设 的 后 验 概 率 。 更 精确 地 说 ,当下 式 成 立时 , 称 hw4p 为 MAP 假设 : 











huap = argmaxP(h ID) 

7 P(DIh)P(h) 

a — P(D) 

=argmaxP( DIh)P(h) (6.2) 
注意 ,在 最 后 一 步 我 们 去 掉 了 P(D), 因 为 它 是 不 依赖 于 h 的 常量 。 

在 某 些 情况 下 ,可 假定 H 中 每 个 假设 有 相同 的 先 验 概率 ( 即 对 妃 中 任意 h; Mh, PCh) 
= P(h;))。 这 时 可 把 等 式 (6.2) 进 一 步 简化 ,只 需 考 虑 P(D1h) 来 寻找 极 大 可 能 假设 。 
P(D1h) 常 被 称 为 给 定 h 时 数据 D 的 似 然 度 (likelihood) ,而 使 P(D1h) 最 大 的 假设 被 称 为 极 
大 似 然 (maximum likelihood, ML) 假 设 huro 

hy), =argmaxP( D1h) (6.3) 

为 了 使 上 面 的 讨论 与 机 器 学 习 问 题 相 联系 ,我 们 把 数据 D ERER H te PH EH, 
而 把 A 称 为 候选 目标 函数 空间 。 实 际 上 , 贝 叶 斯 公式 有 着 更 为 普遍 的 意义 , 它 同样 可 以 很 好 
地 用 于 任意 互 斥 命题 的 集合 总 ,只 要 这 些 命题 的 概率 之 和 为 1( 例 如 , “天空 是 蓝 色 的 "和 “天 空 
不 是 蓝 色 的 ")。 本 章 中 有 时 将 H 作为 包含 目标 函数 的 假设 空间 ,而 D 作为 训练 样 例 集合 。 
其 他 一 些 时候 考 虑 将 H 看 作 一 些 互 斥 命题 的 集合 ,而 D 为 某 种 数据 。 


举例 
为 说 明 贝 叶 斯 规则 ,可 考虑 一 个 医疗 诊断 问题 ,其 中 有 两 个 可 选 的 假设 :(1) 病 人 有 某 种 类 
型 的 癌症 。(2) 病 人 无 癌症 。 可 用 的 数据 来 自 于 某 化 验 测试 , 它 有 两 种 可 能 的 输出 :名 ( 正 ) 和 
名 ( 负 )。 我 们 有 先 验 知 识 :在 所 有 人 口中 只 有 0.008 的 人 患 有 该 疾病 。 另 外 ,该 化 验 测试 只 是 
该 病 的 一 个 不 完全 的 预测 。 该 测试 针对 确实 有 病 的 患者 有 98% 的 可 能 正确 返回 结果 ,而 对 
无 该 病 的 患者 有 97% 的 可 能 正确 返回 操 结 果 。 除 此 以 外 ,测试 返回 的 结果 是 错误 的 。 上 面 的 
情况 可 由 以 下 的 概率 式 概括 ， 
P( cancer) =0.008, P(— cancer) =0.992 
P(@lI cancer) =0.98, P(©l cancer) =0.02 
P(@1i—™ cancer) =0.03, P(O! cancer) =0.97 
假定 现 有 一 新 病人 ,化 验 测试 返回 了 全 结果 。 是 否 应 将 病人 断定 为 有 癌症 呢 ? 极 大 后 验 
假设 可 用 式 (6.2) 来 计算 : 
P(@\| cancer) P( cancer ) = (0.98) x (0.008) = 0.0078 
P(®I— cancer) PC cancer) = (0.03) x (0.992) = 0.0298 
因此 ,hy4p = 一 cancer。 确 切 的 后 验 概 率 可 将 上 面 的 结果 归 一 化 以 使 它们 的 和 为 1 
( 即 P( cancer 1®) = 0 -004358 = 0.21)。 该 步骤 的 根据 在 于 , 贝 叶 斯 公式 说 明 后 验 概率 


就 是 上 面 的 量 除 以 P(O). BR P( 田 ) 没 有 作为 问题 陈述 的 一 部 分 直接 给 出 ,但 因为 已 知 
P( cancer!) A PO cancer iD HDH 1( 即 ,该 病人 要 么 有 癌症 ,要 么 没有 ), 因 此 可 以 进 
行 归 一 化 。 注 意 ,虽然 有 瘤 症 的 后 验 概率 比 先 验 概率 要 大 ,但 最 可 能 的 假设 仍 为 此 人 没有 癌 
JE 





如 上 例 所 示 , 贝 叶 斯 推理 的 结果 很 大 程度 上 依赖 于 先 验 概率 ,要 直接 应 用 该 方法 必须 先 获 
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取 该 值 。 还 要 注意 该 例 中 并 没有 完全 地 接受 或 拒绝 假设 ,而 只 是 在 观察 到 较 多 的 数据 后 增 大 
或 减 小 了 假设 的 可 能 性 。 
计算 概率 的 基本 公式 在 表 6-1 中 列举 。 
表 6-1 基本 概率 公式 表 
@ 乘法 规则 (Product rule) :两 事件 A 和 的 交 的 概率 P( 4 人 B) 
P(AA B) = P(AIB)P(B)= P(BIA)P(A) 
© 加 法 规则 (Sum mle) :两 事件 4 和 8B 的 并 的 概率 P(4VB) 
P(AVB)= P(A)+ P(B)- P(AAB) 
@ 贝 叶 斯 法 则 (Bayes theorem) :给 定 D 时 4 的 后 验 概率 P(h1D) 
P(hID) = 
© 全 概率 法 则 (Theorem of total probability) ;如果 事 件 4,，.. .，4， 互 斥 且 D1" PCA) = 1 , 则 ， 


P(B) = Sipe | A;) P(A;) 
isl 


6.3 贝 叶 斯 法 则 和 概念 学 习 


贝 叶 斯 法 则 和 概念 学 习 问 题 的 关系 是 什么 呢 ? 因为 贝 叶 斯 法 则 为 计算 给 定 训练 数据 下 任 
一 假设 的 后 验 概率 提供 了 原则 性 方法 ,我 们 可 直接 将 其 作为 一 个 基本 的 学 习 算法 ,计算 每 个 假 
设 的 概率 ,再 输出 其 中 概率 最 大 的 。 本 节 考 虑 了 这 样 一 个 BRuTE-FoRcE 贝 叶 斯 概念 学 习 算 
法 ,然后 将 其 与 第 2 章 介绍 的 概念 学 习 算法 相 比 较 。 通 过 比较 可 以 看 到 一 个 有 趣 的 结论 , 即 在 
特定 条 件 下 ,前 面 提 到 的 几 种 算法 都 输出 与 BRuTE-FoRcE 贝 叶 斯 算法 相同 的 假设 ,只 不 过 前 
面 的 算法 不 明确 计算 概率 ,而 且 在 相当 程度 上 效率 更 高 。 


6.3.1 Brute-Force 贝 叶 斯 概念 学 习 


考虑 第 2 章 首 先 提 到 的 概念 学 习 问 题 。 其 中 ,我 们 假定 学 习 器 考虑 的 是 定义 在 实例 空间 
天 上 的 有 限 的 假设 空间 厂 , 任 务 是 学 习 某 个 目标 概念 c: 开 10,1 。 假 定 给 予 学 习 器 某 训 练 
FEED x1 di,)…《xm, dma FE x; 为 X 中 的 某 实例 , di 为 xi 的 目标 函数 值 ( 即 d; = 
c(x;))。 为 简化 讨论 ,假定 实例 序列 (x1… xn 是 固定 不 变 的 ,因此 训练 数据 D 可 被 简单 地 写 
作 目 标 函 数值 序列 ; D = (di…d，)。 可 以 看 到 (见习 题 6.4) ,这 一 简化 不 会 改变 本 节 的 主要 结 
论 。 

基于 贝 叶 斯 理论 ,我们 可 以 设计 一 个 简单 的 概念 学 习 算 法 来 输出 最 大 后 验 假设 。 如 下 : 

Brute-Force MAP 学 习 算 法 

1) 对 于 H Pe ME HRS: 


2) 输出 有 最 高 后 验 概率 的 假设 huar: 
huap=arg maxP(h ID) 


此 算法 需要 较 大 的 计算 量 , 因为 它 对 互 中 每 个 假设 都 应 用 了 贝 叶 斯 公式 以 计算 
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P(h1D)。 虽 然 这 对 于 大 的 假设 空间 显得 不 切实 际 , 但 该 算法 仍然 值得 关注 ,因为 它 提供 了 一 
个 标准 以 判断 其 他 概念 学 习 算法 的 性 能 。 

下 面 为 BRUTE-FoRCE MAP 学 习 算 法 指定 了 一 学 习 问 题 ,我 们 必须 确定 P(h) 和 P(DIh) 
分 别 应 取 何 值 (可 以 看 出 , P(D) 的 值 依 这 两 者 而 定 )。 我 们 可 以 以 任意 方法 选择 P(h) 和 
P( D14h) 的 概率 分 布 ,以 描述 该 学 习 任务 的 先 验 知识 。 这 里 令 其 与 下 面 的 前 提 一 致 . 

1) 训练 数据 D 是 无 噪声 的 ( 即 d; = c( x;)); 

2) 目标 概念 c 包含 在 假设 空间 H 中 ; 

3) 没有 任何 理由 认为 某 假 设 比 其 他 的 假设 的 可 能 性 大 。 

有 了 这 些 假定 ,如何 确定 P(h) 的 值 呢 ?由 于 任 一 假设 不 比 其 他 假设 可 能 性 大 ,很 显然 可 
对 A 中 每 个 假设 h 赋予 相同 的 先 验 概率 。 进 一 步 地 ,由 于 目标 概念 在 H 中 ,所 以 可 要 求 H 
中 所 有 假设 的 概率 和 为 1。 将 这 些 限制 合 起 来 可 得 : 


P(h)= 7a 对 月 中 任 一 
如 何 选择 P(D1h) 的 值 呢 ?P( D1h) 是 在 已 知 假设 h 成 立 的 条 件 下 ( 即 已 知 h 为 目标 概 
念 c 的 正确 描述 ) 观 察 到 目标 值 D = 《di... qd;) 的 概率 。 由 于 假定 训练 数据 无 噪声 ,那么 给 定 
h 时 ,如 果 di = h(xi), 则 分 类 d; 为 1, 如 果 dj h(x; d; AO. WA: 
1 WRX D 中 所 有 d;, d; = h(x;) 
0 其 他 情况 
换言之 ,给 定 假设 h ,数据 D 与 假设 h 一 致 时 概率 值 为 1, 否 则 值 为 0。 
AT P(h) A P(DIA) 的 值 ,现在 我 们 对 于 上 面 的 BRuTE - Force MAP 学 习 算 法 有 了 -一 
个 完整 定义 的 问题 。 接 下 来 考虑 该 算法 的 第 一 步 ,使 用 贝 叶 斯 公式 计算 每 个 假设 h 的 后 验 概 


Æ P(h!D): 


P(DIh) ={ (6.4) 


pehi p) = PLD Lh) PCA) ty h) 


首先 ,考虑 与 训练 数据 D 不 一 致 的 情形 。 由 于 式 (6.4) 定 义 当 与 D 不 一 致 时 
P(DI1h) 为 0, 有 : 


PAID) =P =0 X h 5D 不 一 致 时 


与 D 不一致 的 假设 h 的 后 验 概率 为 0。 
再 考虑 hh 与 D 一 致 的 情况 。 由 于 式 (6.4) 定 义 当 与 D 一 致 时 P(DIh) 为 1, 有 : 
1 

TH 
P(D) 
1 
| 

=| VSu.p! 

IHI 

syg “hDAN 

其 中 , VSy oÆ H 中 与 D 一 致 的 假设 子 集 ( 即 VSy pT D 的 变型 空间 ,如 第 2 章 的 定 


义 )。 很 容易 验证 P(D) = T LDL ,因为 在 所 有 假设 上 P(h1D) 的 和 必 为 1, 并 且 H H D 


P(hID)= 


1 
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一 致 的 假设 数量 为 1 YSw pl1。 另 外 ,可 从 全 概率 公式 ( 见 表 6-1) 以 及 所 有 假设 是 互 斥 的 条 件 
(BDC y i j)( P(A; A h;) =0), 推 导出 PCD) IME: 
P(D)= >)P(D1 h;)P(h;) 


= ` Ix- + > 0 x —— 
hE VSy py | H | 
1 

| A | 





N 
= >) Ix 
hE VSy 


| VSp,p | 





| H | 
总 而 言 之 , 贝 叶 斯 公式 说 明 ,在 我 们 的 P(h) 和 P(D14h) 的 定义 下 ,后 验 概率 P(h1D) 为 : 


mR h 5D 一致 
其 他 情况 
其 中 ,1 VSy .pl 是 A PSD 一致 的 假设 数量 。 假 设 的 概率 演化 情况 如 图 6-1 所 示 。 初 始 


时 ( 见 图 6-1a) 所 有 假设 具有 相同 的 概率 。 当 训练 数据 逐步 出 现 后 ( 见 图 6-tb 和 6-1c) ,不 一 致 
假设 的 概率 变 为 0, 而 整个 概率 的 和 仍 为 1, 它 们 均匀 地 分 布 到 剩余 的 一 致 假设 中 。 


P(h) P(RID 1) en | 
”假设 假设 假设 
a) b) c) 


a) 对 每 个 假设 赋予 均匀 的 先 验 概率 。 当 训练 数据 首先 增长 到 D1b) ,然后 增长 到 DIA 
D2 oc) 时 ,不 一 致 假设 的 后 验 概率 变 成 0, 而 保留 在 变型 空间 中 的 假设 的 后 验 概率 增加 
图 6-1 后 验 概率 随 着 训练 数据 增长 的 演化 


上 面 的 分 析 说 明 ,在 我 们 选 定 的 P(A) A P(D1h) 取 值 下 ,每 个 一 致 的 假设 后 验 概率 为 
(LVYSr p1) ,每 个 不 一 致 假设 后 验 概率 为 0。 因 此 ,每 个 一 致 的 假设 都 是 MAP 假设 。 


1 
P(AID)= | VSyp! (6.5) 
0 


6.3.2 MAP 假设 和 一 致 学 习 器 


上 面 的 分 析 说 明 在 给 定 条 件 下 ,与 D 一 致 的 每 个 假设 都 是 MAP 假设 。 根 据 这 一 结论 可 
直接 得 到 一 类 普遍 的 学 习 器 , 称 为 一 致 学 习 器 (consistent learner) 。 某 学 习 算法 被 称 为 一 致 学 
习 器 ,说 明 它 输出 的 假设 在 训练 样 例 上 有 零 错 误 率 。 由 以 上 的 分 析 可 得 ,如 果 假 定 H LAH 
匀 的 先 验 概率 ( 即 P(hi) = 已 (后 ), 对 所 有 的 i,j), 且 训练 数据 是 确定 性 的 和 无 噪声 的 ( 即 当 DD 
和 请 一 致 时 ,P(DIh) =1, 否 则 为 0) 时 ,任意 一 致 学 习 器 将 输出 一 个 MAP 假设 。 

例如 第 2 章 讨论 的 FIND-S 概念 学 习 算法 。FIND - S 按照 特殊 到 一 般 的 顺序 搜索 假设 空间 
电 , 并 输出 一 个 极 大 特殊 的 一 致 假设 ,因此 可 知 在 上 面 定义 的 P(h) 和 PC D1h) 概 率 分 布下 ， 
它 输出 MAP 假设 。 当 然 , FIND-S 并 不 直接 操作 概率 , 它 只 简单 地 输出 变型 空间 的 极 大 特殊 成 
员 。 然 而 ,通过 决定 P(&) 和 P(D15) 的 分 布 ,以 使 其 输出 为 ,MAP 假设 ,我 们 有 了 一 种 刻画 
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FIND-S 算法 的 有 效 途 径 。 

是 否 还 有 其 他 可 能 的 P(h) 和 P(D1h) 分 布 ,使 FIND-S 输出 MAP 假设 呢 ? 回答 是 肯定 
的 。 因 为 FiND-S 从 变型 空间 中 输出 极 大 特殊 (maximally specific) 假 设 ,所 以 对 于 先 验 概率 偏 
祖 于 更 特殊 假设 的 任何 概率 分 布 , 它 输出 的 假设 都 将 是 MAP 假设 。 更 精确 地 讲 ,假如 .多 是 H 
上 任意 概率 分 布 P(h), 它 在 hi 比 hs 更 特殊 时 赋予 P(hi)>> PCh.). WR EBEA ARI 
布 .多 和 与 上 面相 同 的 P(D14) 分 布 时 ,FIND-S 输出 一 MAP 假设 。 

概括 以 上 讨论 , 员 叶 斯 框架 提出 了 一 种 刻画 学 习 算 法 (如 FINpD-S 算法 ) 行 为 的 方法 ,即便 
该 学 习 算 法 不 进行 概率 操作 。 通 过 确定 算法 输出 最 优 (如 MAP) 假 设 时 使 用 的 概率 分 布 P(h) 
和 P(D1h), 可 以 刻画 出 算法 具有 最 优 行为 时 的 隐 含 假定 。 

使 用 贝 叶 斯 方法 刻画 学 习 算 法 ,与 揭示 学 习 器 中 的 归纳 偏 置 在 思想 上 是 类 似 的 。 注 意 ,在 
第 2 章 将 学 习 算 法 的 归纳 偏 置 定义 为 断言 集合 B, 通 过 它 可 充分 地 演绎 推断 出 学 习 器 所 执行 
的 归纳 推理 结果 。 例 如 ,候选 消除 算法 的 归纳 偏 置 为 :假定 目标 概念 c 包含 在 假设 空间 五 中 。 
我 们 还 将 进一步 证 明 学 习 算法 的 输出 是 由 其 输入 以 及 这 一 隐 含 的 归纳 偏 置 假定 所 演绎 得 出 
的 。 上 面 的 贝 叶 斯 解释 对 于 描述 学 习 算法 中 的 隐 含 假定 提供 了 另 一 种 方法 。 这 里 ,不 是 用 一 
等 效 的 演绎 系统 去 对 归纳 推理 建 模 ,而 是 用 基于 贝 叶 斯 理论 的 一 个 等 效 的 概率 推理 (proba- 
bilistic reasoning) 系 统 来 建 模 。 这 里 的 隐 含 假定 形式 为 : “上 的 先 验 概率 由 P(A) 分 布 给 出 ， 
而 数据 拒绝 或 接受 假设 的 强度 由 P(D1h) 给 出 ”本 书 的 P(h) 和 P(DIP) 定 义 刻画 了 候选 消 
BRA FIND-S 系统 中 的 隐 含 假定 。 在 已 知 这 些 假定 的 概率 分 布 后 ,一 个 基于 贝 叶 斯 理论 的 概率 
推理 系统 将 产生 等 效 于 这 些 算法 的 输入 -输出 行为 。 

本 节 中 所 讨论 的 是 贝 叶 斯 推理 的 一 种 特殊 形式 ,因为 我 们 只 考虑 了 P( D1h) 取 值 只 能 为 
0 或 工 的 情况 , 它 反映 了 假设 预测 的 确定 性 以 及 无 噪声 数据 的 前 提 。 如 后 一 节 所 示 ,还 可 以 通 
过 人 允许 P(D14) 取 值 为 0 和 1 之 外 的 值 以 及 在 P(D14) 中 包含 附加 的 描述 以 表示 曲 声 数据 的 
分 布 情况 ,来 模拟 从 有 噪声 训练 数据 中 学 习 的 行为 。 


6.4” 极 大 似 然 和 最 小 误差 平方 假设 


如 上 节 所 示 , 贝 叶 斯 分 析 可 用 来 表明 一 个 特定 学 习 算 法 会 输出 MAP 假设 ,即使 该 算法 没 
有 显 式 地 使 用 贝 叶 斯 规则 ,或 以 某 种 形式 计算 概率 。 

本 节 考 虑 学习 连续 值 目标 函数 的 问题 ,这 是 在 许多 学 习 算法 中 都 会 遇 到 ,如 神经 网 络 学 
习 、 线 性 回归 以 及 多 项 式 曲线 拟 合 。 通 过 简单 的 贝 叶 斯 分 析 , 可 以 表明 在 特定 前 提 下 , 任 一 学 
习 算 法 如 果 使 输出 的 假设 预测 和 训练 数据 之 间 的 误差 平方 最 小 化 , 它 将 输出 一 极 大 似 然 假设 。 
这 一 结论 的 意义 在 于 ,对 于 许多 神经 网 络 和 曲线 拟 合 的 方法 ,如 果 它 们 试图 在 训练 数据 上 使 误 
差 平方 和 最 小 化 ,此 结论 提供 了 一 种 贝 叶 斯 的 论证 方法 (在 特定 前 提 下 )。 

设想 问题 定义 如 下 ,学 习 器 L 工作 在 实例 空间 X AREZ H E, H PERERA X EE 
义 的 某 种 实数 值 函数 ( 即 如 中 每 个 h 为 一 函数 :h: XPRKRPARREHA). L 面临 的 问 
题 是 学 习 一 个 从 昌 中 抽取 出 的 未 知 目 标 函 数 /: XB BE m 个 训练 样 例 的 集合 ,每 个 样 例 
的 目标 值 被 某 随 机 噪声 干扰 ,此 随机 噪声 服从 正 态 分 布 。 更 精确 地 讲 , 每 个 训练 样 例 是 序 偶 
《xi，d;) ,其 中 di = f(x) +e. 这 里 f xi) 是 目标 函数 的 无 噪声 值 , ei 是 一 代表 噪声 的 随机 
变量 。 假 定 。 的 值 是 独立 抽取 的 ,并 且 它 们 的 分 布 服从 零 均 值 的 正 态 分 布 。 学 习 器 的 任务 是 
在 所 有 假设 有 相等 的 先 验 概率 前 提 下 ,输出 极 大 似 然 假 设 ( 即 MAP 假设 )。 
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虽然 我 们 的 分 析 应 用 于 任意 实数 值 函 数学 习 , 但 可 以 用 一 个 简单 的 例子 来 描述 这 一 问题 ， 
即 学 习 线 性 函数 。 图 6-2 所 示 为 一 线性 目标 函数 /( 以 实 线 表示 ) ,以 及 该 目标 函数 的 有 噪声 
训练 样 例 集 。 虚 线 对 应 有 最 小 平方 训练 误差 的 假设 hwi ,也 即 极 大 似 然 假设 。 注 意 ,其 中 极 大 
似 然 假 设 不 一 定 等 于 正确 假设 f, 因 为 它 是 从 有 限 的 带 噪声 数据 中 推论 得 出 的 。 

这 里 的 误差 平方 和 最 小 的 假设 即 为 极 大 
似 然 假设 。 为 说 明 这 一 点 ,首先 快速 地 回顾 
一 下 统计 理论 中 的 两 个 基本 概念 :概率 密度 
和 正 态 分 布 。 首 先 ,为 讨论 像 e 这 样 的 连续 
变量 上 的 概率 ,我 们 引入 概率 密度 (probabili- 
ty density)。 简单 的 解释 是 ,我 们 需要 随机 变 
量 所 有 可 能 值 的 概率 和 为 1。 由 于 变量 是 连 
续 的 ,因此 不 能 为 随机 变量 的 无 限 种 可 能 的 
值 赋予 有 限 概率 。 这 里 需要 用 概率 密度 来 代 
蔡 , 以 使 。 这 样 的 连续 变量 在 所 有 值 上 的 概 
率 密度 的 积分 为 1。 一 般 地 ,用 小 写字 母 p 
来 代表 概率 密度 函数 ,以 区 分 有 限 概率 PCE BRRR / 对 应 实 线 。 假 定 训练 样 例 (x;，d:) 为 真 
T T mae). E SAME 
率 密度 P(xo) 是 当 e 趋 近 于 OR, x 取 值 在 。 5 个 训练 样 例 下 的 极 大 似 然 假设 hu 
[zxo，xo+e) 区 间 内 的 概率 与 1/e 乘积 的 极 图 6-2 ”学习 某 实 值 函数 
限 。 

概率 密度 函数 : 





. 1 
p(x) =lim <P(xosx < xote) 


其 次 ,这 里 断定 随机 噪声 变量 e 由 正 态 分 布 生成 。 正 态 分 布 是 一 个 平滑 的 钟 形 分 布 , 它 可 
由 其 均值 x 和 标准 差 o 完全 刻画 。 见 表 5-4 中 的 精确 定义 。 

有 了 以 上 的 两 个 概念 ,再 来 讨论 在 我 们 的 问题 里 为 什么 最 小 误差 平方 假设 实际 上 就 是 极 
大 似 然 假 设 。 证 明 的 过 程 先 使 用 前 面 的 式 (6.3) 的 定义 来 推导 极 大 似 然 假 设 ,但 使 用 小 写 的 p 
代表 概率 密度 : 

| hu =argmaxp( DIh) 

”如 前 所 述 , 假 定 有 一 圈定 的 识 练 实例 集合 (x1. .. xm 》, 因 此 只 考虑 相应 的 目标 值 序列 D = 
(di...dn)。 这 里 di= f(x) + eio 假定 训练 样 例 是 相互 独立 的 ,给 定 hh 时 ,可 将 P(D1h) 写 
成 各 p( di14) 的 积 : 

hut = argmax I] P(d ih) 

如 果 误 差 e 服从 零 均值 和 未 知 方差 o? 的 正 态 分 布 ,那么 每 个 di 也 必须 服从 正 态 分 布 ,其 
方差 为 o2 ,而 且 以 真实 的 目标 值 F(xi ) 为 中 心 (而 不 是 0)。 因 此 ,pf(dil h) 的 可 被 写 为 方差 
o e= f(xi) 的 正 态 分 布 。 现 使 用 表 5-4 中 的 正 态 分 布 公式 并 将 相应 的 y 和 o? 代入 , 写 
出 描述 p (di14) 的 正 态 分 布 。 由 于 概率 di 的 表达 式 是 在 h 为 目标 函数 了 的 正确 描述 条 件 下 
的 ,所 以 还 要 替换 p = flai) = h(x;), 从 而 得 到 : 
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m 1 -7 
hut = argmax [| -万 
m 1 -二 (A) 
= argmax || Jami’ 
现在 使 用 一 个 极 大 似 然 计 算 中 常用 的 转换 :不 是 用 上 面 这 个 复杂 的 表达 式 取 最 大 值 ,而 是 
使 其 对 数 取 最 大 ,这 样 较 容易 。 原 因 是 Inp 是 p 的 单调 函数 ,因此 使 np 最 大 也 就 使 p BK: 
sn 1 1 
hut = argmax 2 In —— - 5526 di — h(x;))? 
此 表达 式 中 第 一 项 为 一 独立 于 h 的 常数 ,可 被 忽略 ,因此 得 到 : 


hut = angmax >) - ald; - h(x;))? 
使 一 个 负 的 量 最 大 等 效 于 使 相应 的 正 的 量 最 小 : 
hun = argmin >) sald - h(x)? 
最 后 ,可 以 再 一 次 忽略 掉 与 六 无 关 的 常数 : 
hun = argmin >) (d; - A(x)? (6.6) 


这 样 , 式 (6.6) 说 明了 极 大 似 然 假设 hawz 为 ,使 训练 值 di 和 假设 预测 值 上 (x;) 之 间 的 误差 
的 平方 和 最 小 的 那 一 个 。 该 结论 前 提 是 训练 值 d; 由 真实 目标 值 加 上 随机 噪声 产生 ,其 中 随机 
噪声 是 从 一 零 均值 的 正 态 分 布 中 独立 抽取 的 。 从 上 面 的 推导 中 可 明确 看 出 ,误差 平方 项 (di - 
h(xi))? 从 正 态 分 布 定义 中 的 指数 项 中 得 来 。 如 果 假 定 噪声 分 布 有 另外 的 形式 ,可 进行 类 似 
的 推导 得 到 不 同 的 结果 。 

注意 ,上 面 的 推导 包含 了 选择 假设 使 似 然 的 对 数值 (linp (Dh) ) 为 最 大 ,以 确定 最 可 能 的 
假设 。 如 前 所 述 ,这 导致 了 与 使 p(D1h) 这 个 似 然 性 最 大 化 相同 的 结果 。 这 一 用 对 数 似 然 性 
来 计算 的 方法 在 许多 贝 叶 斯 分 析 中 都 用 到 了 ,因为 它 比 直接 计算 似 然 性 需要 的 数学 运算 量 小 
很 多 。 当 然 , 如 前 所 述 , 极 大 似 然 假设 也 许 不 是 MAP 假设 ,但 如 果 所 有 假设 有 相等 的 先 验 概 
率 , 两 者 相同 。 

为 什么 用 正 态 分 布 来 描述 噪声 是 合理 的 ? 一 个 必须 承认 的 原因 是 为 了 数学 计算 的 简洁 性 。 
另 一 原因 是 ,这 一 平滑 的 钟 形 分 布 对 许多 物理 系统 的 噪声 都 有 良好 的 近似 。 实 际 上 ,第 5 章 讨论 
的 中 心 极限 定律 显示 ,足够 多 的 独立 同 分 布 随机 变量 的 和 服从 一 正 态 分 布 ,而 不 管 独立 变量 本 身 
的 分 布 是 什么 。 这 说 明 由 许多 独立 同 分 布 的 因素 的 和 所 生成 的 噪声 将 成 为 正 态 分 布 。 当 然 ,在 
现实 中 不 同 的 分 量 对 噪声 的 贡献 也 许 不 是 同 分 布 的 ,这 样 该 定理 将 不 能 证 明 我 们 的 选择 。 

使 误差 平方 最 小 化 的 方法 经 常 被 用 于 神经 网 络 、 曲 线 拟 合 及 其 他 许多 实 函数 逼近 的 算法 
中 。 第 4 章 讨论 了 梯度 下 降 方法 , 它 在 神经 网 络 中 搜索 最 小 误差 平方 的 假设 。 

在 结束 这 里 关于 极 大 似 然 假设 和 最 小 平方 误差 假设 的 关系 的 讨论 之 前 ,必须 认识 到 该 问 
题 框架 中 的 某 些 限制 。 上 面 的 分 析 只 考虑 了 训练 样 例 的 目标 值 中 的 噪声 ,而 没有 考虑 实例 属 
性 中 的 噪声 。 例 如 ,如 果 学 习 问 题 是 基于 某 人 的 年 龄 和 高 度 预 测 他 的 重量 ,那么 上 面 的 分 析 要 
求 重量 的 测量 中 可 以 有 噪声 ,而 年 龄 和 高 度 的 测量 必须 是 精确 的 。 如 果 将 这 些 简化 假定 去 掉 ， 
分 析 过 程 将 十 分 复杂 。 
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6.5 用 于 预测 概率 的 极 大 似 然 假设 


在 前 一 节 的 问题 框架 中 ,我 们 确定 了 极 大 似 然 假 设 是 在 训练 样 例 上 的 误差 平方 和 最 小 的 
假设 。 本 节 将 推导 一 个 类 似 的 准则 , 它 针对 神经 网 络 学 习 这 样 的 问题 : 即 学 习 预 测 概率 。 

考虑 问题 的 框架 为 学 习 一 个 不 确定 性 (概率 的 ) 函 数 f:X 一 10, 1| , 它 有 两 个 离散 的 值 输 
出 。 例 如 ,实例 空间 无 代表 有 某 些 症 状 的 病人 ,目标 函数 f(z) 在 病人 能 存活 下 来 时 为 1, 否 
则 为 0。 或 者 说 , 代表 借 货 申 请 者 ,表示 为 其 过 去 的 信用 历史 ,如 果 他 能 成 功 地 归还 下 一 次 
借贷 , f(x ) 为 1, 否 则 为 0。 这 两 种 情况 下 都 要 f 有 不 确定 性 。 例 如 ,一 群 有 相同 症状 的 病人 
为 92% 可 以 存活 ,8% 不能。 这 种 不 可 预测 性 来 源 于 未 能 观察 到 的 症状 特征 ,或 者 是 疾病 转化 
中 确实 存在 的 不 确定 性 机 制 。 无 论 问题 的 来 源 是 什么 ,结果 都 是 要 求 目标 函数 的 输出 为 输入 
的 概率 函数 。 

有 了 这 样 的 问题 描述 ,我 们 希望 学 习 得 到 的 神经 网 络 (或 其 他 实 函 数 逼 近 器 ) 的 输出 是 
f(x) = 1 的 概率 。 换 言 之 ,需要 找到 目标 函数 / = X >~[0, 1], 使 f'=P(f(x)=1)。 在 上 面 
的 病人 存活 预测 的 例子 中 ,如果 x 为 一 个 存活 率 是 92% 的 病人 ,那么 f'(x) = 0.92, 概 率 函 数 
f(x) 将 有 92% 的 机 会 等 于 1 ,剩余 的 8% 的 机 会 等 于 0。 

如 何 使 用 一 个 神经 网 络 来 学 习 f ' 呢 ?一 个 很 明显 的 、 蛮 力 的 方法 是 首先 收集 对 x 的 每 
个 可 能 值 观察 到 的 1 和 0 的 频率 ,然后 训练 神经 网 络 ,对 每 个 x 输出 目标 频率 。 下 面 将 见 到 ， 
我 们 可 以 直接 从 f 的 训练 样 例 中 训练 神经 网 络 ,而 且 仍 能 推导 出 f ' 的 极 大 似 然 假设 。 

在 此 情况 下 为 寻找 极 大 似 然 假设 ,应 使 用 怎样 的 优化 准则 呢 ? 为 回答 该 问题 , 首先 需要 获 
得 P(DIA) 的 表示 。 这 里 假定 训练 数据 D 的 形式 为 D = {x1 d1) ms dm) | ,其 中 di 为 观 
察 到 的 /(x;) 的 0 或 1 值 。 

回忆 前 一 节 中 的 极 大 似 然 及 最 小 误差 平方 分 析 , 其 中 简单 地 假定 实例 (x1,… x ) 是 固定 
的 。 这 样 就 可 以 只 用 目标 值 d; 来 刻画 数据 。 虽 然 这 里 也 可 以 作 这 样 的 简单 假定 ,但 我 们 可 以 
避免 这 一 假定 以 说 明 这 对 最 后 的 输出 没有 影响 。 将 x; 和 d; 都 看 作 随 机 变量 ,并 假定 每 个 训 
练 样 例 都 是 独立 抽取 的 ,可 把 PC DIA) SME: 


POD ih) = TEPC, di | h) (6.7) 


再 进一步 ,可 以 假定 遇 到 每 一 特定 实例 x -的 概率 独立 于 假设 ho 例如 ,训练 数据 集中 包 
含 一 特定 病人 x; 的 概率 独立 于 关于 存活 率 的 假设 (虽然 病人 的 存活 率 di 确实 强烈 依赖 于 
h)o 4 x 独立 于 上 六 时 ,可 将 上 式 重 写 (应 用 表 6-1 的 乘法 规则 ) 为 : 


P(D\h) = TL PCa, dil h) = TL Pca | h, xi) P(x;) (6.8) 


现在 计算 在 假设 h 成 立 的 条 件 下 ， 对 一 个 实例 x; "观察 到 di - = 1 的 概率 P(dilh，x;)。 注 
E h 是 对 应 目标 函数 的 假设 , 它 正 好 能 计算 这 一 概率 。 因 此 , P(d;=11h, x;)= h(x), FFB 
一 般 情况 下 : 
h(xi) 如 果 d;=1 
(1-h(x;)) 如 果 di =0 
为 将 其 代入 到 式 (6.8) 中 求 P(DIA) ,首先 将 其 表达 为 一 可 数学 操作 的 形式 。 
P(dilh, xi) = h(x) (Lh(xi)) % (6.10) 


Pedih) =| ` (6.9) 
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容易 验证 ,等 式 (6.9) 和 (6.10) 是 等 价 的 。 注 意 , 当 d = 1 时 , 式 (6.10) 中 第 二 项 等 于 1。 
因此 P(qd;=11h，x;) = 有 h(xi), 它 与 式 (6.9) 等 价 。 同 样 ,可 分 析 d = 0 时 的 情形 。 
将 式 (6.10) 代 换 式 (6.8) 中 的 P(d,1h，x,;) 得 到 : 


P(D\h) = A — h(x;)) dPp( x;) (6.11) 
现 写 出 极 大 似 然 假设 的 表达 式 :” 
hus = argmax |] h(x,)4(1 — AC x;))!-4PC x) 
最 后 一 项 为 独立 于 h 的 常量 ,可 去 掉 , 得 到 : 
hus = argmax I] h(xi) i(l — hx) (6.12) 


式 (6.12) 中 右边 的 表达 式 可 看 作 是 表 5-3 中 二 项 分 布 (Binomial distribution) 的 一 般 化 形 
式 。 该 式 描述 的 概率 相当 于 投掷 m 个 不 同 硬币 ,输出 得 到 (di ... d; ) 的 概率 ,其 中 假定 每 个 
硬币 x; 产生 正面 的 概率 为 h(x;)。 注 意 表 5-3 描述 的 二 项 分 布 很 简单 ,但 它 附 加 了 一 个 假 
定 , 即 所 有 硬币 撞 出 正面 的 概率 是 相同 的 ( 即 h(x;) = h(x,)，Y i， j)。 两 种 情况 下 我 们 都 假 
定 硬币 投掷 的 输出 是 相互 独立 的 ,这 一 假定 适用 于 当前 的 问题 。 

与 前 面 的 情况 相同 ,如 果 用 似 然 的 对 数 计算 会 比较 容易 ,得 到 : 


hus = argmax >) djinh(x;) + (1 - dln(1 - h(a,)) (6.13) 


式 (6.13) 描 述 了 在 我 们 的 问题 中 必须 被 最 大 化 的 量 。 此 结果 可 与 前 面 的 使 误差 平方 最 小 
化 的 分 析 相 类 比 。 注 意 式 (6.13) 与 粹 函数 的 一 般 式 - 如 ;pilogp;( 在 第 3 章 中 讨论 过 ) 的 相似 
性 。 正 因为 此 相似 性 ,以 上 量 的 负 值 有 时 被 称 为 交叉 炳 (cross entropy)。 


在 神经 网 络 中 梯度 搜索 以 达到 似 然 最 大 化 


上 面 讨 论 了 使 式 (6.13) 中 的 量 最 大 化 可 得 到 极 大 似 然 假 设 。 现 用 Ch, DREZE., 
本 节 为 神经 网 络 学 习 推导 一 个 权 值 训练 法 则 , 它 使 用 梯度 上 升 以 使 Gh, DEKE. 

如 第 4 章 中 的 讨论 , G(h, DD) 的 梯度 可 由 Gh, D) 关于 不 同 网 络 权 值 偏 导 的 向 量 给 出 ， 
它 定义 了 由 此 学 习 到 的 网 络 表示 的 假设 h( 见 第 4 章 中 梯度 下 降 搜索 的 一 般 讨 论 以 及 这 里 所 
使 用 的 术语 的 细节 )。 在 此 情况 下 ,对 应 于 权 值 wj;( 从 输入 & 到 单元 门 的 G(h，D) 的 偏 导 
为 : 

ƏG(h, D) _ > ƏG(h, D) Oh(xi) 
Owe 各 Oh(xi) Ow 
3 8(d,lnh(x;) + (1 一 d;)In(1 一 h(x;))) Oh(x;) 
= 2 Əh( x;) Ow g 
m d; 一 h(x;) Oh(x;) 
= 之 h(xi)(l 一 h(x;)) Ow x 
为 使 分 析 过 程 简 明 ,假定 神经 网 络 从 一 个 单 层 的 sigmoid 单元 建立 。 这 种 情况 下 有 : 
Əh Xi ' 
EEE 


其 中 , 2. ENR i 个 样 例 的 到 单元 j 的 第 k 个 输出 ,而 o (x) A sigmoid HFE (squashing) KRH 





(6.14) 
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导数 ( 见 第 4 章 )。 最 后 ,将 此 表达 式 代入 到 等 式 (6.14), 可 得 到 组 成 梯度 的 导数 的 简单 表示 : 
a6(h,D) _ = Cd = Mad) a 


Ow jx 
因为 需要 使 P( D1h) 最 大 化 而 不 是 最 小 化 ， 所 以 我 们 执行 梯度 上 升 搜索 而 不 是 梯度 下 降 
搜索 。 在 搜索 的 每 一 次 迭代 中 , 权 值 向 量 按 梯度 的 方向 调整 ,使 用 权 值 更 新 法 则 : 
Wijk Wj + AW 


Hh: 
Awg = ? (d - h(x;)) xip (6.15) 


其 中 ,7 是 一 小 的 正常 量 ， 表示 梯度 上 升 搜索 的 步 进 大 小 。 

将 这 一 权 值 更 新 法 则 与 反 向 传播 算法 (其 用 途 是 使 预测 和 观察 的 网 络 输出 的 误差 平方 和 
最 小 化 ) 中 用 到 的 权 值 更 新 法 则 相 比 较 , 可 以 得 到 有 趣 的 结论 。 用 于 输出 单元 权 值 的 反 向 传播 
更 新 法 则 ( 见 第 4 章 ) ,使 用 这 里 的 记号 可 重新 表示 为 : 


W jg ~~ W jk + Aw, 


其 中 : 
Awg = >? h(x;)(1 - h(xi)) (di - h(xi)) xi 
注意 , 它 与 式 (6. 15) 中 的 法 则 相似 ,只 {是 除了 一 项 h(x;)(1 -h(x;)), 它 是 sigmoid 函数 
的 导数 。 


概括 一 下 ,这 两 个 权 值 更 新 法 则 在 两 种 不 同 的 问题 背景 下 收敛 到 极 大 似 然 假设 。 使 误差 
平方 最 小 化 的 法 则 寻找 到 极 大 似 然 假设 基于 的 前 提 是 ,训练 数据 可 以 由 目标 函数 值 加 上 正 态 
分 布 噪 声 来 模拟 。 使 交叉 炉 最 小 化 的 法 则 寻找 极 大 似 然 假设 基于 的 前 提 是 ,观察 到 的 布尔 值 
为 输入 实例 的 概率 函数 。 


6.6 最 小 描述 长 度 准则 


回忆 一 下 第 3 章 关 于 “ 奥 坎 坦 剃 刀 ” 的 讨论 ,这 是 一 个 很 常用 的 归纳 偏 置 , 它 可 被 概括 为 : 
“为 观察 到 的 数据 选择 最 短 的 解释 "。 本 章 我 们 要 讨论 在 对 奥 坎 坦 弟 刀 的 长 期 争论 中 的 几 个 论 
点 。 这 里 对 此 给 出 一 个 贝 叶 斯 的 分 析 , 并 讨论 一 紧密 相关 的 准则 , 称 为 最 小 描述 长 度 准则 
(Minimum Description Length, MDL). 
提出 最 小 描述 长 度 的 目的 是 为 了 根据 信息 论 中 的 基本 概念 来 解释 hwap 的 定义 。 再 次 考 
虞 已 很 扣 悉 的 hp 定义 : | 
hyap = argmax P( D | h)PCh) 
可 被 等 价 地 表示 为 使 以 2 为 底 的 对 数 最 大 化 : 
hmar = argmax logo P( DI h) + log, P(h) 
或 使 它 的 负 值 最 小 化 : 
huap = argmin — logo P( DI h) - log P(h) (6.16) 
令 人 吃惊 的 是 , 式 (6.16) 可 被 解释 为 在 特定 的 假设 编码 表示 方案 上 “优先 选择 短 的 假设 ”。 
为 解释 这 一 点 , 先 引入 信息 论 中 的 一 个 基本 结论 。 设 想 要 为 随机 传送 的 消息 设计 一 个 编码 ,其 
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中 遇 到 消息 i 的 概率 是 rmi。 这 里 最 感 兴趣 的 是 最 简短 的 编码 , 即 为 了 传输 随机 信息 所 需 的 最 
小 期 望 传送 位 数 。 显 然 ,为 使 期 望 的 编码 长 度 最 小 ,必须 为 可 能 性 较 大 的 消息 赋予 较 短 的 编 
码 。Shannon & Weaver(1949) 证 明 最 优 编码 (使 得 期 望 消息 长 度 最 短 的 编码 ) 对 消息 i 的 编码 
长 度 为 - logz pi;S 位 。 使 用 代码 C 来 编码 消息 i 所 需 的 位 数 被 称 为 消息 i 关于 C 描述 长 度 。 
标记 为 Leli)o l 
下 面 将 使 用 以 上 编码 理论 的 结论 来 解释 等 式 (6.16): 
e -jlogP(h) 是 在 假设 空间 HRP h 的 描述 长 度 。 换 言 之 ,这 是 假设 h 使 用 其 
最 优 表示 时 的 大 小 。 以 这 里 的 记号 , Lc (h) = - logz2P(h), 其 中 , Cr 为 假设 空间 HH 的 
最 优 编码 。 
è -logzP(D1h) 是 在 给 定 假设 h 时 训练 数据 D 的 描述 长 度 ( 在 此 最 优 编码 下 )。 以 这 里 
的 记号 表示 , Lc (Dik) = - log PC DIA), FOP Co 是 假定 发 送 者 和 接送 者 都 知道 假 
设 h 时 描述 数据 D 的 最 优 编码 。 
© 因此 可 把 式 (6.16) 重 写 ,以 显示 出 hyp 是 使 假设 描述 长 度 和 给 定 假 设 下 数据 描述 长 度 
之 和 最 小 化 的 假设 h。 
hmar = argmin Le,( h)+ Zc Dih) 
其 中 , Cy Cy AHA H 的 最 优 编码 和 给 定 疡 时 了 的 最 优 编码 。 
最 小 描述 长 度 (Minimum Description Length，MDL) 准 则 建议 ,应 选择 使 这 两 个 描述 长 度 
的 和 最 小 化 的 假设 。 当 然 为 应 用 此 准则 ,在 实践 中 必须 选择 适合 于 学 习 任 务 的 特定 编码 或 表 
示 。 假 定 使 用 代码 Ci 和 Cs 来 表示 假设 和 给 定 假设 下 的 数据 ,可 将 MDL 准则 陈述 为 : 
最 小 描述 长 度 准 则 :选择 hn tE: 
hupi = argmin Le (A) + Le,( DIh) (6.17) 
上 面 的 分 析 显 示 ,如果 选 择 C 为 假设 的 最 优 编 码 Cr ,并 且 选 择 C 为 最 优 编码 Coir, A 
É hyni = hyaro 
从 直觉 上 讲 , 可 将 MDL 准则 想像 为 选择 最 短 的 方法 来 重新 编码 训练 数据 ,其 中 不 仅 计算 
假设 的 大 小 ,并 县 计算 给 定 假设 时 编码 数据 的 附加 开销 。 
举例 说 明 ,假定 将 MDL 准则 应 用 到 决策 树 学 习 的 问题 当中 。 怎 样 选 择 假设 和 数据 的 表 
示 C1 和 C, 呢 ? 对 于 C1, 可 以 很 自然 地 选择 某 种 明确 的 决策 树 编码 方法 ,其 中 描述 长 度 随 着 
树 中 节点 和 边 的 增长 而 增加 。 如 何 选择 给 定 一 决策 树 时 假设 的 编码 Cs 呢 ?” 为 使 讨论 简单 
化 ,假定 实例 序列 (x1... x) 是 接收 者 和 发 送 者 都 知道 的 ,那么 可 以 只 传输 分 类 结果 (f(x1) 
... f(xm))( 注 意 ,传送 实例 的 开销 独立 于 正确 的 假设 ,因此 它 不 会 影响 到 hpi 的 选择 )。 现 
在 ,如 果 训 练 分 类 《了 (x1).. .f(xm)) 与 假设 的 预计 相等 ,那么 就 没 必要 传输 有 关 这 些 样 例 的 
任何 信息 (接收 者 可 在 其 收 到 假设 后 计算 这 些 值 )。 因 此 在 此 情况 下 ,给 定 假设 的 分 类 情况 时 
的 描述 长 度 为 0。 如果 某 些 样 例 被 h 误 分 类 ,那么 对 每 一 误 分 类 需要 传送 一 个 消息 以 确定 哪个 
样 例 被 误 分 类 了 (可 用 最 多 lop m 位 传送 ) ,并 传送 其 正确 分 类 值 (可 用 最 多 lop k 位 ,其 中 为 可 
能 分 类 值 的 数目 )。 在 编码 Cy 和 C F hwpr 这 一 假设 就 是 使 这 些 描述 长 度 和 最 小 的 假设 。 
因此 , MDL 准 则 提供 了 一 种 方法 以 在 假设 的 复杂 性 和 假设 产生 错误 的 数量 之 间 进 行 折 


、 因 此 传输 一 条 消息 的 期 望 长 度 为 可 ; - mlogzPi, 即 可 能 消息 集合 的 炉 的 公式 ( 蝎 第 3 章 )。 
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中 , 它 有 可 能 选择 一 个 较 短 的 产生 少量 错误 的 假设 ,而 不 是 能 完美 地 分 类 训练 数据 的 较 长 的 假 
设 。 看 到 这 一 点 ,就 有 了 一 种 处 理 数据 过 度 拟 合 的 方法 。 

Quinlan & Rivest(1989) 描 述 了 应 用 MDL 准则 以 选择 决策 树 最 佳 大 小 的 几 个 实验 。 报 告 
指出 基于 MDL 的 方法 产生 的 决策 树 的 精度 相当 于 第 3 章 中 讨论 的 标准 树 修剪 方法 。Mehta 
et al. (1995) 描 述 了 另 一 种 基于 MDL 的 方法 进行 决策 树 修剪 ,经 实验 证 明 ,该 方法 得 到 的 结果 
与 标准 树 修剪 方法 相当 。 

从 最 小 描述 长 度 准 则 的 分 析 中 可 得 到 什么 结论 ? 是 否 说 明 所 有 情况 下 短 假 设 都 最 好 ? 结 
论 是 否定 的 。 已 经 证 明 的 只 是 ,当选 定 假设 表示 以 使 假设 h 的 大 小 为 log P(h) ,并 且 选 择 
例外 情况 的 表示 以 使 给 定 h 下 DD 的 编码 长 度 等 于 - logzP(DIA) 时 ,MDL 准则 产生 MAP R 
设 。 然 而 为 说 明 以 上 两 者 可 以 如 此 表示 ,必须 知道 所 有 的 先 验 概 率 P(4) 以 及 P(D1h)。 没 
有 理由 相信 MDL 假设 对 于 任意 编码 C 和 C, 都 是 最 好 的 。 出 于 实际 的 考虑 ,更 容易 的 办 法 
是 由 设计 者 指定 一 个 表示 ,以 捕获 有 关 假 设 概率 的 知识 ,而 不 是 完整 地 指定 每 个 假设 的 概率 。 
学 术 界 对 MDL 应 用 到 实际 问题 的 争论 ,主要 为 选择 C 和 C 编码 提供 某 种 形式 的 论证 。 


6.7 贝 叶 斯 最 优 分 类 器 


迄今 为 止 ,我 们 已 讨论 了 问题 “给 定 训练 数据 ,最 可 能 的 假设 是 什么 ?”。 实 际 上 ,该 问题 通 
常 与 另 一 更 有 意义 的 问题 紧密 相关 , 即 “ 给 定 训练 数据 ,对 新 实例 的 最 可 能 分 类 是 什么 ?””。 虽 然 
可 看 出 第 二 个 问题 可 简单 地 由 应 用 MAP 假设 到 新 实例 来 得 到 ,实际 上 还 可 能 有 更 好 的 算法 。 

为 了 更 直观 些 ,考虑 一 个 包含 三 个 假设 hi hn hs 的 假设 空间 。 假 定 已 知 训练 数据 时 三 
个 假设 的 后 验 概率 分 别 为 0.4,0.3,0.3。 因 此 ,hi 为 MAP 假设 。 若 一 新 实例 x 被 hi 分 类 为 
正 , 但 被 hi 和 hs 分 类 为 反 。 计 算 所 有 假设 ,x 为 正 例 的 概率 为 0.4( 即 与 h 相 联 系 的 概率 )， 
而 为 反例 的 概率 是 0.6。 这 时 最 可 能 的 分 类 (反例 ) 与 MAP 假设 生成 的 分 类 不 同 。 

一 般 说 来 ,新 实例 的 最 可 能 分 类 可 通过 合并 所 有 假设 的 预测 得 到 ,用 后 验 概率 来 加 权 。 如 
果 新 样 例 的 可 能 分 类 可 取 某 集合 Y 中 的 任 一 值 v,, 那 么 概率 P( v1D) 表 示 新 实例 的 正确 分 
类 为 w 的 概率 ,其 值 为 : 

P(v,1D) = Py | hi)P(h; | D) 


新 实例 的 最 优 分 类 为 使 P(v;1D ) 最 大 的 v 值 。 
贝 叶 斯 最 优 分 类 器 : 
argmax >) P( vj | h;)PCh; | D) (6.18) 
GEV KEH 


用 上 面 的 例子 说 明 ,新 实例 的 可 能 分 类 集合 为 = | 四 ,| ,而 : 
P(h\1D)=0.4, P(Olhy)=0, P(@lh,)=1 
P(h21D)=0.3, P(Olhz)=1, P(@lh2) =0 
P(h31D)=0.3, P(Qlh3)=1, P(@lh3) =0 

因此 ; 

DIP(@! hi) PCA; | D) = 0.4 


DPQ! Ai) P(h; | D) = 0.6 
EH 
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FH: 


argmax DPC; | h;) PCA; | D) =O 
,€ 1@.QIK EH 


按照 式 (6.18) 分 类 新 实例 的 系统 被 称 为 贝 叶 斯 最 优 分 类 器 (Bayes optimal classifier) 5 Wl 
叶 斯 最 优 学 习 器 。 使 用 相同 的 假设 空间 和 相同 的 先 验 概率 ,没有 其 他 方法 能 比 其 平均 性 能 更 
好 。 该 方法 在 给 定 可 用 数据 ,假设 空间 及 这 些 假设 的 先 验 概率 下 使 新 实例 被 正确 分 类 的 可 能 
性 达到 最 大 。 

例如 ,在 布尔 概念 学 习 问 题 中 ,使 用 前 面 章节 的 变型 空间 方法 ,对 一 新 实例 的 贝 叶 斯 最 优 
分 类 是 在 变型 空间 的 所 有 成 员 中 进行 加 权 选 举 获得 的 ,每 个 候选 假设 用 后 验 概率 加 权 。 

贝 叶 斯 最 优 分 类 器 的 一 个 极 有 趣 的 属性 是 , 它 所 做 的 分 类 可 以 对 应 于 H 中 不 存在 的 假 
设 。 设 想 使 用 式 (6.18) 来 分 类 X 中 每 个 实例 , 按 此 定义 的 实例 标注 不 一 定 对 应 于 H 中 的 任 
一 单个 假设 h 对 实例 的 标注 。 理 解 该 命题 的 一 种 方法 是 将 贝 叶 斯 分 类 器 看 成 是 不 同 于 假设 空 
E 五 的 另 一 空间 H , 在 其 上 应 用 贝 叶 斯 公式 。 确 切 地 讲 , H' 有 效 地 包含 了 一 组 假设 , 它 能 在 
H 中 多 个 假设 的 线性 组 合 所作 的 预言 中 进行 比较 。 


6.8 GIBBS 算法 


虽然 贝 叶 斯 最 优 分 类 器 能 从 给 定 训 练 数据 中 获得 最 好 的 性 能 ,应 用 此 算法 的 开销 却 很 大 。 
原因 在 于 它 要 计算 A 中 每 个 假设 的 后 验 概率 ,然后 合并 每 个 假设 的 预测 以 分 类 新 实例 。 

一 个 替代 的 、 非 最 优 的 方法 是 Gibbs 算法 ( 见 Opper & Haussler 1991), 定 义 如 下 : 

1) 按照 H 上 的 后 验 概率 分 布 ,从 H 中 随机 选择 假设 有。 

2) 使 用 h 来 预言 下 一 实例 x 的 分 类 。 

当 有 一 待 分 类 新 实例 时 ,Gibbs 算法 简单 地 按照 当前 的 后 验 概率 分 布 使 用 一 随机 抽取 的 
假设 。 令 人 吃惊 的 是 ,可 证 明 在 一 定 条 件 下 Gibbs 算法 的 误 分 类 率 的 期 望 值 最 多 为 贝 叶 斯 最 
优 分 类 器 的 两 倍 (Haussher et al. 1994)。 更 精确 地 讲 , 期 望 值 是 在 随机 抽取 的 目标 概念 上 作 
出 的 ,抽取 过 程 按照 学 习 器 假定 的 先 验 概率 。 在 此 条 件 下 , Gibbs 算法 的 错误 率 期 望 值 最 差 为 
贝 叶 斯 分 类 器 的 两 倍 。 

该 结论 对 前 述 的 概念 学 习 问 题 有 一 个 有 趣 的 启示 , 即 如 果 学 习 器 假定 H 上 有 均匀 的 先 验 
概率 ,而 且 如 果 目 标 概念 实际 上 也 按 该 分 布 抽取 ,那么 当前 变型 空间 中 随机 抽取 的 假设 对 下 一 
实例 分 类 的 期 望 误差 最 多 为 贝 叶 斯 分 类 器 的 两 倍 。 这 里 又 有 了 一 个 例子 说 明 贝 叶 斯 分 析 可 以 
对 一 种 非 贝 叶 斯 算法 的 性 能 进行 评估 。 


6.9 朴素 贝 叶 斯 分 类 器 


贝 叶 斯 学 习 方 法 中 实用 性 很 高 的 一 种 为 朴素 贝 叶 斯 学 习 器 , 常 被 称 为 朴素 贝 叶 斯 分 类 器 
(naive Bayes classifier) 。 在 某 些 领域 内 其 性 能 可 与 神经 网 络 和 决策 树 学 习 相 当 。 本 节 介 绍 朴 
素 贝 叶 斯 分 类 器 ,下 一 节 将 其 应 用 于 实际 的 问题 , 即 自然 语言 文本 文档 的 分 类 问题 。 

朴素 贝 叶 斯 分 类 器 应 用 的 学 习 任 务 中 ,每 个 实例 x 可 由 属性 值 的 合 取 描述 ,而 目标 函数 
f(x) 从 某 有 限 集合 Y 中 取 值 。 学 习 器 被 提供 一 系列 关于 目标 函数 的 训练 样 例 以 及 新 实例 
(描述 为 属性 值 的 元 组 )《a1, ez. .. an, 然后 要 求 预 测 新 实例 的 目标 值 (或 分 类 )。 

贝 叶 斯 方法 的 新 实例 分 类 目标 是 在 给 定 描述 实例 的 属性 值 (oil, az. . .cns? 下 ,得 到 最 可 能 
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的 目标 值 DMAP 
Umap = argmax P( vjla,,a2...a,) 
可 使 用 贝 叶 斯 公式 将 此 表达 式 重 写 为 ; 
Pl(ai,a2...an|v;)P(v)) 
PHAP ee Pl(al Q2...4 ) 


= argmaxP(a), a9... anl vj) P(v;) (6.19) 


现在 要 做 的 是 基于 训练 数据 估计 式 (6.19) 中 两 个 数据 项 的 值 。 估 计 每 个 P(w;) 很 容易 ， 
只 要 计算 每 个 目标 值 ， 出 现在 训练 数据 中 的 频率 就 可 以 。 然 而 ,除非 有 一 个 非常 大 的 训练 数 
据 的 集合 ,否则 用 这 种 方法 估计 不 同 的 PCan a2...as1v;) 项 不 太 可 行 。 问 题 在 于 这 些 项 的 
数量 等 于 可 能 实例 的 数量 乘 以 可 能 目标 值 的 数量 。 因 此 为 获得 合理 的 估计 ,实例 空间 中 每 个 
实例 必须 出 现 多 次 。 
朴素 贝 叶 斯 分 类 器 基于 一 个 简单 的 假定 :在 给 定 目 标 值 时 属性 值 之 间 相 互 条 件 独立 。 换 
言 之 ,该 假定 说 明 在 给 定 实例 的 目标 值 情 况 下 ,观察 到 联合 的 cl ，az. . . an 的 概率 等 于 每 个 单 
独 属 性 的 概率 乘积 : 
Plai,a2...an1 1v) = [] PCa; | v) 
将 其 代入 式 (6.19) 中 ,可 得 到 朴素 贝 叶 斯 分 类 器 所 使 用 的 方法 : 
UNB = argmaxP ( vj) [] PCa; | v;) (6.20) 


其 中 , ws 表示 朴素 贝 叶 斯 分 类 器 输出 的 目标 值 。 注 意 ,在 朴素 贝 叶 斯 分 类 器 中 , 须 从 训 
练 数据 中 估计 的 不 同 P(ail w) 项 的 数量 只 是 不 同 的 属性 值 数 量 乘 以 不 同 目标 值 数 量 一 一 这 
比 要 估计 P(al,a2...an1);) 项 所 需 的 量 小 得 多 。 

概括 地 讲 , 朴 素 贝 叶 斯 学 习 方 法 需要 估计 不 同 的 P(w) 和 P(ailw) 项 ,基于 它们 在 训练 
数据 上 的 频率 。 这 些 估计 对 应 了 待 学 习 的 假设 。 然 后 该 假设 使 用 式 (6.20) 中 的 规则 来 分 类 新 
实例 。 只 要 所 需 的 条 件 独 立 性 能 够 被 满足 ,朴素 贝 叶 斯 分 类 vws 等 于 MAP 分 类 。 

朴素 贝 叶 斯 学 习 方法 和 其 他 已 介绍 的 学 习 方 法 之 间 有 一 个 有 趣 的 差别 :没有 明确 的 搜索 
可 能 假设 空间 的 过 程 (这 里 ,可 能 假设 的 空间 为 可 被 赋予 不 同 的 P(w) 和 P(ailvi) 项 的 可 能 
值 )。 假 设 的 形成 不 需要 搜索 ,只 是 简单 地 计算 训练 样 例 中 不 同 数据 组 合 的 出 现 频率 就 可 以 
了 。 
举例 

现 将 朴素 贝 叶 斯 分 类 器 应 用 到 前 面 决策 树 中 讨论 过 的 概念 学 习 问 题 :按照 某 人 是 否 要 打 
网 球 来 划分 天 气 。 第 3 章 的 表 3-2 提供 了 目标 概念 PlayTennis 的 14 个 训练 样 例 ,其 中 ,每 一 
天 由 属性 Outlook, Temperature, Humidity 和 Wind 来 描述 。 这 里 我 们 使 用 此 表 中 的 数据 结 
合 朴素 贝 叶 斯 分 类 器 来 分 类 下 面 的 新 实例 : 


( Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) 


我 们 的 任务 是 对 此 新 实例 预测 目标 概念 PlayTennis 的 目标 值 (yes 或 no)。 将 式 (6.20) 
应 用 到 当前 的 任务 ,目标 值 vns 由 下 式 给 出 : 
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Uyg = argmax P( vj) [I PCa; | v;) 


0 € l yes, nol 


= argmax P( v;) P( Outlook = sunny | v;)P( Temperature = cool | v;) 
v € fyes, nof 
J 


P( Humidity = high | vi)P( Wind = strong | v;) (6.21) 

注意 ,在 最 后 一 个 表达 式 中 a 已 经 用 新 实例 的 特定 属性 值 实例 化 了 。 为 计算 ong, WE 
需要 10 个 概率 ,它们 都 可 以 从 训练 数据 中 估计 出 来 。 首 先 不 同 目标 值 的 概率 可 以 基于 这 14 
个 训练 样 例 的 频率 很 容易 地 估计 出 : 

P( PlayTennis = yes) =9/14 =0.64 
P( PlayTennis = no) = 5/14 =0.36 
与 此 类 似 ,可 以 估计 出 条 件 概率 ,例如 对 于 Wind = strong A: 
P( Wind = strong | PlayTennis = yes) = 3/9 = 0.33 
P( Wind = strong | PlayTennis = no) = 3/5 = 0.60 

使 用 这 些 概率 估计 以 及 对 剩余 属性 的 相似 的 估计 ,可 按照 式 (6.21) 计 算 wws 如 下 (为 简明 

起 见 忽略 了 属性 名 ): 
P( yes) P( sunny | yes) P( cool | yes) P( high | yes) P( strong | yes ) = 0.0053 
P( no) P( sunny | no) P( cool | no) P( high | no) P( strong | no) = 0.0206 

这 样 ,基于 从 训练 数据 中 学 习 到 的 概率 估计 ,朴素 贝 叶 斯 分 类 器 将 此 实例 赋 以 目标 值 
PlayTennis = no 。 再 进一步 ,通过 将 上 述 的 量 归 一 化 ,可 计算 给 定 观 察 值 下 目标 值 为 no 的 条 
件 概 率 。 对 于 此 例 ,概率 为 0.0206/(0.0206 + 0.0053) = 0.795。 

估计 概率 

至 此 ,我 们 通过 在 全 部 事件 基础 上 观察 某 事件 出 现 的 比例 来 估计 概率 。 例 如 ,在 上 例 中 ， 
估计 P( Wind = strong | PlayTennis = mo) 使 用 的 是 比值 n./n, 其 中 ,n= 5 为 所 有 PlayTennis 
= no 的 训练 样 例 数目 ,而 n。=3 是 在 其 中 Wind = strong 的 数目 。 

显然 ,在 多 数 情况 下 ,观察 到 的 比例 是 对 概率 的 一 个 良好 估计 ,但 当 m. 很 小 时 估计 较 差 。 
难度 在 于 ,设想 P( Wind = strong | PlayTennis = no) 的 值 为 0.08, 而 样本 中 只 有 5 个 样 例 的 
PlayTennis = no。 那 么 对 于 n, 最 可 能 的 值 只 有 0。 这 产生 了 两 个 难题 , 首先, n/n 产生 了 一 
个 有 偏 的 过 低估 计 (underestimate) 概 率 。 其 次 , 当 此 概率 估计 为 0 时 ,如 果 将 来 的 查询 包含 
Wind = strong ,此 概率 项 会 在 贝 叶 斯 分 类 器 占有 统治 地 位 。 原 因 在 于 ,由 式 (6.20) 计 算 的 量 
需要 将 其 他 所 有 概率 项 乘 以 此 0 值 。 

为 避免 这 些 难题 ,这 里 采用 一 种 估计 概率 的 贝 叶 斯 方法 , 即 如 下 定义 的 m- 估 计 : 


n+m 

RE, n, An 与 前 面 定义 相同 , p 是 将 要 确定 的 概率 的 先 验 估计 ,而 m 是 一 称 为 等 效 样 
本 大 小 的 常量 , 它 确 定 了 对 于 观察 到 的 数据 如 何 衡量 p 的 作用 。 在 缺少 其 他 信息 时 选择 p 的 
一 种 典型 的 方法 是 假定 均匀 的 先 验 概率 ,也 就 是 , 如果 某 属性 有 上 大 个 可 能 值 ,那么 设置 
p=1/ko 例如 ,为 估计 P( Wind = strong | PlayTennis = no), 注 意 到 属性 Wind 有 两 个 可 能 
值 ,因此 均匀 的 先 验 概率 为 p = 0.5。 注 意 如 果 m 为 0, m- 估 计 等 效 于 简单 的 比例 nno 4 
E n 和 m 都 非 0, 那 么 观察 到 的 比例 n/n 和 先 验 概率 p 可 按照 权 m 合并 。m 被 称 为 等 效 样 
本 大 小 的 原因 是 : 式 (6.22) 可 被 解释 为 将 ”个 实际 的 观察 扩大 ,加 上 m 个 按 p 分 布 的 虚拟 样 





BOR 贝 叶 其 学习 729 





本 。 
6.10 举例 :学 习 分 类 文本 


为 演示 贝 叶 斯 学 习 方 法 在 实践 上 的 重要 性 ,考虑 一 个 学 习 问 题 ,其 中 的 实例 都 为 文本 文 
档 。 例 如 ,要 学 习 目 标 概念 :我 感 兴趣 的 电子 新 闻 稿 "或 “讨论 机 器 学 习 的 万 维 网 页 " 。 在 这 两 
种 情况 下 ,如 果 计 算 机 可 以 精确 地 学 习 到 目标 概念 ,就 可 从 大 量 在 线 文本 文档 中 自动 过 滤 出 最 
相关 的 文档 显示 给 读者 。 

这 里 描述 了 一 个 基于 朴素 贝 叶 斯 分 类 器 的 文本 分 类 的 通用 算法 。 有 趣 的 是 ,这 样 的 概率 
方法 是 目前 所 知 文本 文档 分 类 算法 中 的 最 有 效 的 一 类 。 这 种 系统 的 例子 由 Lewis(1991)、 
Lang( 1995) 和 Joachims(1996) 提 出 。 

将 要 展示 的 朴素 贝 叶 斯 算法 遵循 以 下 的 问题 框架 。 考 虑 实例 空间 X 包含 了 所 有 的 文本 
文档 ( 即 任意 长 度 的 所 有 可 能 的 单词 和 标点 符号 串 )。 给 定 某 未 知 目标 阴 数 f(x) 的 一 组 训练 
样 例 , f(x ) 的 取 值 来 自 于 某 有 限 集合 上。 此 任务 是 从 训练 样 例 中 学 习 , 以 预测 后 续 文 本 文档 
的 目标 值 。 作 为 示例 ,这 里 考虑 的 目标 函数 是 :将 文档 分 类 为 某 人 是 否 感 兴趣 ,使 用 目标 值 
like Fil dislike 代表 这 两 类 。 

在 应 用 朴素 贝 叶 斯 分 类 器 时 的 两 个 主要 设计 问题 是 ,首先 要 决定 怎样 将 任意 文档 表示 为 
属性 值 的 形式 ,其 次 要 决定 如 何 估计 朴素 贝 叶 斯 分 类 器 所 需 的 概率 。 

这 里 表示 任意 文本 文档 的 途径 极 奇 简单 。 给 定 一 文本 文档 (这 里 先 考 虑 英文 文档 ) ,可 对 
每 个 单词 的 位 置 定义 一 个 属性 ,该 属性 的 值 为 在 此 位 置 上 找到 的 英文 单词 。 该 文本 文档 如 下 
例 所 示 : 

This is an example document for the naive Bayes classifier. This document contains only one 


paragraph, or two sentences. 
这 样 ,上 例 中 的 文本 被 表示 为 19 个 属性 ,对 应 19 个 单词 位 置 。 第 一 个 属性 的 值 为 
“This” ,第 二 个 为 “is” ,依次 类 推 。 注 意 较 长 的 文档 也 需要 较 多 的 属性 数目 。 我 们 将 看 到 ,这 不 


会 带 来 任何 麻烦 。 

如 果 文 本 文档 这 样 表示 ,现在 就 可 以 应 用 朴素 贝 叶 斯 分 类 器 了 。 为 了 明确 起 见 ,假定 我 们 
有 700 个 训练 文档 ,并 且 已 由 人 工 将 其 分 类 为 dislike ,而 另外 300 个 文档 被 分 类 为 lite。 现 在 
有 了 一 个 新 文档 要 分 类 。 为 明确 起 见 ,该 文档 就 是 上 面 的 两 句 英文 例子 。 在 此 情况 下 ,可 应 用 
式 (6.20) 计 算 朴 素 贝 叶 斯 分 类 器 如 : 


Une = atgmax P(w) JI PCa; | v;) 
„El , dislike} 
= argmax P(v;) PCa = "this" | v;) PCa, = "is" | v;).. . P(aş = "sentences" | vj) 
„El , dislike | 
概括 地 讲 , 朴 素 贝 叶 斯 分 类 vwg 是 使 该 文档 中 的 单词 在 此 处 被 观察 到 的 概率 最 大 的 一 个 


分 类 , 它 遵循 通常 的 朴素 贝 叶 斯 独立 性 假定 。 独 立 性 假定 Plas.. -a 1 y) = P 
(a; 1 oj) 说 明 在 一 个 位 置 上 出 现 某 单词 的 概率 独立 于 另外 一 个 位 置 的 单词 。 这 一 假定 在 有 
些 时 候 并 不 反映 真实 情况 。 例 如 ,在 某 处 观察 到 单词 learning 的 概率 会 因为 它 前 一 单词 是 
machine 而 增 大 。 虽 然 此 独立 性 假定 很 不 精确 ,但 这 里 别 无 选择 ,必须 作 此 假定 一 一 没有 这 个 
假定 ,要 计算 的 概率 项 将 极为 庞大 。 幸 运 的 电 ， 在 实践 中 朴素 贝 叶 斯 学 习 器 在 许多 文本 分 类 问 
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题 中 性 能 非常 好 ,即使 此 独立 性 假定 不 正确 。Domingos 和 Pazzani( 1996) 对 这 一 幸运 的 现象 作 
了 一 个 有 趣 的 分 析 。 

为 使 用 上 式 计算 UNB Ete P( vi) Al P(a; = wl Vi)o 这 里 引入 Wk 代表 英文 
词典 中 的 第 k 个 单词 。 前 一 项 可 基于 每 一 类 在 训练 数据 中 的 比例 很 容易 地 得 到 (此 例 中 
P( like) =0.3 H P( dislike) = 0.7)。 如 以 往 那样 ,估计 类 别 的 条 件 概率 (如 PCa) =“ This” | 
P( dislike)) 要 困难 的 多 ,因为 必须 对 每 个 文本 位 置 、 英 文 单词 和 目标 值 的 组 合计 算 此 概率 项 。 
非常 不 幸 ,在 英文 词汇 中 包含 约 5 万 个 不 同 单词 ,本 例 中 有 2 个 可 能 的 目标 值 和 19 个 文本 位 
置 ,所 以 必须 从 训练 数据 中 估计 2 x 19 x 50000 ~ 200 万 个 这 样 的 概率 项 。 

幸运 的 是 ,可 以 再 引入 一 合理 的 假定 以 减少 需要 估计 的 概率 数量 。 确 切 地 讲 , 可 假定 遇 到 
一 个 特定 单词 wi 的 概率 独立 于 单词 所 在 位 置 。 形 式 化 的 表述 是 ,在 给 定 目标 分 类 的 情况 下 ， 
假定 各 属性 是 独立 同 分 布 的 , 即 对 所 有 的 i， js k, m,P(a;= wl vj) = P(am = wl v;)o 因 
此 ,为 估计 整个 概率 集合 PCa, = wi1v;)，P(a2 = wi1v;)…, 可 通过 一 个 位 置 无 关 的 概率 
P( wilo) ,而 不 考虑 单词 的 位 置 。 其 效果 是 ,现在 只 需要 2 x 50000 个 不 同 的 概率 项 P(w, 
2 )。 虽 然 这 仍然 是 一 个 较 大 的 数值 ,但 却 是 可 处 理 的 。 注 意 到 如 果 训 练 数据 有 限 , 作 此 假定 
的 一 个 主要 优点 在 于 , 它 使 可 用 于 估计 每 个 所 需 概率 的 样 例 数 增加 了 ,因此 增加 了 估计 的 可 靠 
程度 。 

为 完成 学 习 算法 的 设计 , 仍 需 要 选择 一 个 方法 估计 概率 项 。 这 里 采纳 了 等 式 (6.22) 中 的 
m- 估 计 , 即 有 统一 的 先 验 概率 并 且 m 等 于 词汇 表 的 大 小 。 因 此 ,对 P( wi1v;) 的 估计 为 : 

nti 
n+l Vocabulary 

其 中 ,n 为 所 有 目标 值 为 w 的 训练 样 例 中 单词 位 置 的 总 数 , ns EEn 个 单词 位 置 中 找到 
wi 的 次 数 ,而 1 Vocabulary | 为 训练 数据 中 的 不 同 单词 (以 及 其 他 记号 ) 的 总 数 。 

概括 地 说 ,最 终 的 算法 使 用 的 朴素 贝 叶 斯 分 类 器 假定 单词 出 现 的 概率 与 它 在 文本 中 的 位 


置 无 关 。 最 终 的 算法 显示 在 表 6-2 中 。 注 意 该 算法 非常 简单 。 其 中 ,过程 LEARN-NAIVE-BAYES- 
TEXT 分 析 所 有 训练 文档 ,从 中 抽取 出 所 有 出 现 的 单词 和 记号 ,然后 在 不 同 目标 类 中 计算 其 频 


率 以 获得 必要 的 概率 估计 。 以 后 , 若 给 定 一 个 待 分 类 新 实例 ,过 程 CLASSIFY-NAIVE-BAYES-TEXT 
使 用 此 概率 估计 来 按照 式 (6.20) 计 算 vvs。 注 意 在 新 文档 中 出 现 但 不 在 训练 集 的 文档 中 出 现 
的 任何 单词 将 被 简单 地 忽略 。 该 算法 的 代码 以 及 训练 数据 集 , 可 在 万 维 网 的 http:// 
www.cs.cmu.edu/ ~ tom/book.html 中 找到 。 


表 6-2 ”用 于 学 习 和 分 类 文本 的 朴素 贝 叶 斯 算法 


LEARN _NAIVE _ BAYES _ TEXT( Examples, V) 


Examples 为 一 组 文本 文档 以 及 它们 的 目标 值 。V 为 所 有 可 能 目标 值 的 集合 。 此 函数 作用 是 学 习 概率 项 
P(wslw ), 它 描述 了 从 类 别 0, 中 的 一 个 文档 中 随机 抽取 的 一 个 单词 为 英文 单词 wk 的 概率 。 该 函数 也 学 习 类 别 
的 先 验 概率 P( oj)。 


1. 收集 Examples 中 所 有 的 单词 ,标点 符号 以 及 其 他 记号 


© Vocabulary- {E Examples 中 任意 文本 文档 中 出 现 的 所 有 单词 及 记号 的 集合 
a re 
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( 续 ) 
2. 计算 所 需要 的 概率 项 P(o) 和 Pwt v) 
@ 对 V 中 每 个 目标 值 v; 
© docs;+ Examples H BIREN o; 的 文档 子 集 
° PC) T Reon el 
@ Text «docs; 中 所 有 成 员 连 接 起 来 建立 的 单个 文档 
@ nH Text, 中 不 同 单词 位 置 的 总 数 
@ 对 Vocabulary 中 每 个 单词 w, 
© ni 单词 wi 出 现在 Text, 中 的 次 数 


n+l 


© PC wil os) rT Vocabulary | 


CLASSIFY _ NAIVE _ BAYES _ TEXT( Doc ) . 

对 文档 Doc 返回 其 估计 的 目标 值 。ai 代表 在 Do 中 的 第 i 个 位 置 上 出 现 的 单词 。 
@ positions<- 在 Doc 中 的 所 有 单词 位 置 , 它 包 含 能 在 Vocabulary 中 找到 的 记号 
@ iE ong 


Ong = argmaxP ( v) Il Plai | v;) 
”; i€ positions 
注 : 除 通常 的 朴素 贝 叶 斯 假定 外 ,算法 还 假定 单词 出 现 的 概率 独立 于 其 在 文本 中 的 位 置 。 


实验 结果 


表 6-2 的 学 习 算法 效率 如 何 ? 在 Joachims(1996) 的 一 个 实验 中 ,此 算法 (有 微小 的 变化 ) 
被 应 用 于 分 类 新 闻 组 的 文章 。 其 中 每 一 文章 的 分 类 是 该 文章 所 属 的 新 闻 组 名 称 。 此 实验 考虑 
了 20 个 电子 新 闻 组 ,然后 从 每 个 新 闻 组 中 搜集 1000 篇 文章 ,形成 一 个 包含 2 万 个 文档 的 数据 
集 。 然 后 应 用 朴素 贝 叶 斯 算法 ,其 中 2/3 作为 训练 样 例 , 而 在 剩余 1/3 中 进行 性 能 的 衡量 。 因 
为 有 20 个 可 能 的 新 闻 组 ,那么 随机 猜测 的 分 类 精确 度 为 5% 。 由 程序 获得 的 精确 度 为 89% 。 
此 实验 中 使 用 的 算法 与 表 6-2 中 的 算法 只 有 一 点 不 同 : 只 有 文档 中 出 现 单 词 的 一 个 子 集 被 选 
作 算 法 中 的 词汇 表 ,确切 地 说 ,100 个 最 常见 的 单词 被 移 去 (如 “the" 和 "of 这样 的 单词 ) ,而 且 
任何 出 现 少 于 3 次 的 单词 也 被 移 去 ,得 到 的 词汇 表 大 约 包 含 38 500 个 单词 。 

应 用 类 似 的 统计 学 习 算 法 进行 文本 分 类 的 其 他 实验 也 获得 了 同样 好 的 结果 。 例 如 , Lang 
(1995) 描 述 了 朴素 贝 叶 斯 算法 的 另 一 变种 ,把 它 应 用 到 学 习 目 标 概念 “我 感 兴趣 的 新 闻 组 文 
章 ”。 他 描述 了 NEwsWEEDER 系统 一 一 是 一 个 让 用 户 阅 读 新 闻 组 文章 并 为 其 评分 的 系统 。 然 
后 NewsWEEDER 使 用 这 些 评分 的 文章 作为 训练 样 例 ,来 预测 后 续 的 文章 哪些 是 用 户 感 兴趣 
的 ,再 将 其 送 给 用 户 阅读 。LANG (1995) 报 告 了 他 的 实验 ,其 中 用 NewsWeeper 中 学 到 的 用 户 
兴趣 配置 文件 ,每 天 向 用 户 推 荐 评分 最 高 的 新 文章 。 通 过 每 天 向 用 户 展示 前 10% 的 自动 评分 
文章 , 它 建立 的 文章 序列 中 包含 的 用 户 感 兴趣 的 文章 比 通常 高 3 ~4 倍 。 例 如 ,被 一 个 用 户 评 
价 为 “有 趣 的 ”文章 占 总 体 的 16% ,而 NewsWEEDER 推荐 的 文章 中 他 感 兴 趣 的 占 59% 。 

其 他 几 种 非 贝 叶 斯 的 统计 文本 学 习 算法 也 很 常见 ,其 中 许多 基于 信息 检索 领域 (informa- 
tion retrieval) 中 的 最 先 发 明 的 相似 性 度量 ( 见 Rocchio 1971;Salton 1991)。 更 多 的 文本 学 习 算 
法 见 Hearst & Hirsh(1996)。 
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R63 在 文本 分 类 实验 中 使 用 的 20 个 新 闻 组 


comp. graphics misc. forsale soc. religion. christian sci. space 
comp. os. ms-windows. misc rec. autos talk. politics. guns sci. crypt 
comp. sys. ibm. pc. hardware rec. motorcycles talk . politics. mideast sci. electronics 
comp. sys. mac. hardware rec. sport . baseball talk. politics. mise sci. med 
comp. windows. x rec. sport . hockey talk. religion. misc 

alt. atheism 


注 : 在 对 每 个 新 闻 组 用 667 篇 文章 训练 后 ,朴素 贝 叶 斯 分 类 器 在 预测 后 续 文 章 属于 哪 一 个 新 闻 组 时 获得 了 89% 的 精 
度 。 随 机 猜测 只 能 得 到 5% 的 精确 度 。 


6.11 贝 叶 斯 信念 网 


如 前 两 节 所 讨论 的 ,朴素 贝 叶 斯 分 类 器 假定 属性 cj… an 的 值 在 给 定 目标 值 " 下 是 条 件 独 
立 的 。 这 一 假定 显著 地 减 小 了 目标 函数 学 习 的 计算 复杂 度 。 当 此 条 件 成 立时 ,朴素 贝 叶 斯 分 
类 器 可 得 到 最 优 贝 叶 斯 分 类 。 然 而 ,在 许多 情形 下 ,这 一 条 件 独 立 假定 明显 过 于 严格 了 。 

贝 叶 斯 信念 网 描述 的 是 一 组 变量 所 遵从 的 概率 分 布 , 它 通过 一 组 条 件 概率 来 指定 一 组 条 
件 独 立 性 假定 。 朴 素 贝 叶 斯 分 类 器 假定 所 有 变量 在 给 定 目标 变量 值 时 为 条 件 独立 的 。 与 此 不 
同 , 贝 叶 斯 信念 网 中 可 表述 变量 的 一 个 子 集 上 的 条 件 独 立 性 假定 。 因 此 , 贝 叶 斯 信念 网 提供 了 
一 种 中 间 的 方法 , 它 比 朴素 贝 叶 斯 分 类 器 中 条 件 独 立 性 的 全 局 假定 的 限制 更 少 ,又 比 在 所 有 变 
量 中 计算 条 件 依赖 更 可 行 。 贝 叶 斯 信念 网 是 目前 研究 中 一 个 焦点 ,而 且 已 提出 学 习 它 和 用 它 
进行 推理 的 多 种 方法 。 本 节 介绍 贝 叶 斯 信念 网 的 关键 概念 和 表示 。 更 详细 的 讨论 见 Pearl 
(1988) .Rusell & Norvig (1995) .Heckerman et al.(1995) 以 及 Jensen (1996). 

一 般 来 说 , 贝 叶 斯 信念 网 描述 了 一 组 变量 上 的 概率 分 布 。 考 虑 一 任意 的 随机 变量 集合 Yı 
… 了 ,其 中 每 个 Y; 可 取 的 值 集合 为 V(Y;)。 定 义 变 量 集合 了 的 联合 空间 (joint space) HX 
乘 V(Y1) x V(Ys)…V(Y,)。 换 言 之 ,在 联合 空间 中 的 每 一 项 对 应 变量 元 组 Yl... 了,) 的 
一 个 可 能 的 赋值 。 在 此 联合 空间 上 的 概率 分 布 称 为 联合 概率 分 布 (joint probability distribu- 
tion) 。 联 合 概率 分 布 指定 了 元 组 ( Zi ... 7, ) 的 每 个 可 能 的 变量 约束 的 概率 。 贝 叶 斯 信念 网 
则 对 一 组 变量 描述 了 联合 概率 分 布 。 


6.11.1 条 件 独 立 性 


首先 ,为 讨论 贝 叶 斯 信念 网 ,需要 精确 定义 条 件 独立 性 。 令 X YAZ 为 3 个 离散 值 随机 
变量 。 当 给 定 Z 值 时 大 服从 的 概率 分 布 独立 于 了 的 值 , 称 X 在 给 定 Z 时 条 件 独 立 于 了 , 即 : 
(Yy Xis yjs zk) P(X = xil Y =y; Z= z) =P(X=x;lZ= zk) 
其 中 : x;:E V(X),yE VY), ziE V(Z)。 通 常 将 上 式 简 写 为 P(XIY,2Z)= P(X12)。 
这 一 关于 条 件 独立 性 的 定义 可 被 扩展 到 变量 集合 。 当 下 列 条 件 成 立时 , 称 变 量 集 合 X,...X, 
在 给 定 变量 集合 Z1... Z, 时 条 件 独立 于 变量 集合 Yi... Ym: 
P(X... Xil Yi... Yms Zio. Za) = PUK... XZ... Za) 
注意 ,此 定义 与 朴素 中叶 斯 分 类 器 中 的 条 件 独立 性 之 间 的 关系 。 朴 素 贝 叶 斯 分 类 器 假定 
给 定 目标 值 V 时 ,实例 属性 A, 条 件 独立 于 实例 属性 4,, 这 使 得 朴素 贝 叶 斯 分 类 器 可 以 按照 
下 式 计 算式 (6.20) 中 的 P(41，421V): 
P(Ai, AslV)= P(A11As, V)P(A21V) (6.23) 
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= P(A,|V)P(A)IV) (6.24) 
(6.23) RB 6-1 中 概率 的 乘法 规则 的 一 般 形式 。 式 (6.24) 成 立 是 因为 A, 在 给 定 V 
时 条 件 独立 于 4,, 然 后 由 条 件 独立 性 的 定义 可 以 得 到 P(A41|14,,V)= PCA IV). 


6.11.2 表示 


贝 叶 斯 信念 网 (简写 为 贝 叶 斯 网 ) 表 示 一 组 变量 的 联合 概率 分 布 。 例 如 ,图 6-3 中 的 贝 叶 
斯 网 表示 了 在 布尔 变量 Storm., Lightning, Thunder , ForestFire, Campfire 和 Bus Tour Group 
上 的 联合 概率 分 布 。 一 般 地 说 , 贝 叶 斯 网 表示 联合 概率 分 布 的 方法 是 指定 一 组 条 件 独立 性 假 
定 ( 它 表 示 为 一 有 向 无 环 图 ) 以 及 一 组 局 部 条 件 概率 集合 。 联 合 空间 中 每 个 变量 在 贝 叶 斯 网 中 
表示 为 一 个 结 点 。 对 每 一 个 变量 需要 两 种 类 型 的 信息 。 首 先 ,网 络 弧 表 示 断 言 “ 此 变量 在 给 定 
其 直接 前 驱 时 条 件 独立 于 其 非 后 继 ”。 当 从 Y 到 针 存 在 一 条 有 向 的 路 径 , 我 们 称 X 是 Y 的 后 
继 。 其 次 ,对 每 个 变量 有 一 个 条 件 概率 表 , 它 描述 了 该 变量 在 给 定 其 立即 前 驱 时 的 概率 分 布 。 对 
网 络 变 量 的 元 组 (了 1.. .了 ,) 峰 以 所 希望 的 值 (y1...y,) 的 联合 概率 可 由 下 面 的 公式 计算 : 


P( yis.. Yn) = LPG, | Parents( Y;)) 


其 中 , Parents( Y;) RRMA Y, 的 直接 前 驱 的 集合 。 注 意 , P(y;1 Parents( Y;)) WAS 
于 与 结 点 Yi 关联 的 条 件 概 率 表 中 的 值 。 






Cervom 


SB $7B -5B -7S,7B 
04 OI 08 0.2 
06 09 0.2 0.8 


Lightning 





左边 的 网 络 表示 了 一 组 条 件 独立 性 假定 。 确 切 地 说 ,每 个 节点 在 给 定 其 父 结 点 时 ,条 件 独 立 于 其 非 
后 代 结 点 。 每 个 结 点 关联 一 个 条 件 概率 表 , 它 指定 了 该 变量 在 给 定 其 父 结 点 时 的 条 件 分 布 。 右 边 
列 出 了 Campfire 结 点 的 条 件 概 率 表 ,其 中 Campfire, Storm 和 BusTourGroup 分 别 缩写 为 C,S,B 


图 6-3 ” 贝 叶 斯 信念 网 


为 说 明 这 一 点 ,图 6-3 表示 了 在 布尔 变量 Storm, Lightning, Thunder, ForestFire, 
Campfire 以 及 BusTourGroup 上 的 联合 概率 分 布 。 考 虑 结 点 Campfire, 网 络 结 点 和 孤 表 示 
了 断言 : Campfire 在 给 定 其 父 结 点 Storm Ml Bus Tour Group 时 条 件 独 立 于 其 非 后 继 Lightning 
和 Thunder 。 这 意味 着 一 旦 我 们 知道 了 变量 Storm 和 Bus Tour Group 的 值 , 变 量 Lightning 
和 Thunder 不 会 提供 有 关 Campfire 的 更 多 的 信息 。 图 右边 显示 了 与 变量 Campfire 联系 的 
条 件 概率 表 。 比 如 表 的 最 左上 一 个 数据 表示 了 以 下 的 断言 : 

P( Campfire = Truel Storm = True, BusTourGroup = True) =0.4 
注意 ,此 表 只 提供 了 给 定 其 父 变量 Storm 和 BusTourGroup 下 Campfire 的 条 件 概率 ,所 有 变量 
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的 局 部 条 件 概率 表 以 及 由 网 络 所 描述 的 一 组 条 件 独立 假定 ,描述 了 该 网 络 的 整个 联合 概率 分 布 。 

贝 叶 斯 信念 网 的 一 个 吸引 人 的 特性 在 于 , 它 提供 了 一 种 方便 的 途径 以 表示 因果 知识 ,比如 
Lightning( 闪 电 ) 导 致 Thunder (打雷 )。 以 条 件 独立 性 的 术语 ,可 将 其 表述 为 在 给 定 Light- 
ning 的 值 情况 下 , Thunder 条 件 独立 于 网 络 中 其 他 变量 。 注 意 ,此 条 件 独立 性 假定 是 由 图 6-3 
的 贝 叶 斯 网 的 弧 指 定 的 。 


6.11.3 推理 


可 以 用 员 叶 斯 网 在 给 定 其 他 变量 的 观察 值 时 推理 出 某 些 目标 变量 (如 , ForestFire) 的 值 。 
当然 ,由 于 所 处 理 的 是 随机 变量 ,所 以 一 般 不 会 赋予 目标 变量 一 个 确切 的 值 。 真 正 需 要 推理 的 
是 目标 变量 的 概率 分 布 , 它 指定 了 在 给 予 其 他 变量 的 观察 值 条 件 下 ,目标 变量 取 每 一 个 可 能 值 
的 概率 。 在 网 络 中 所 有 其 他 变量 都 确切 知道 了 以 后 ,这 一 推理 步骤 是 很 简单 的 。 在 更 通常 的 
情况 下 ,我 们 希望 在 知道 一 部 分 变量 的 值 ( 比 如 仅 有 Thunder 和 BusTourGroup 可 被 观察 到 ) 
时 获得 某 变量 的 概率 分 布 (如 ForestFire)。 一 般 来 说 , 贝 叶 斯 网 络 可 用 于 在 知道 某 些 变 量 的 
值 或 分 布 时 计算 网 络 中 另 一 部 分 变量 的 概率 分 布 。 

一 般 情况 下 ,对 任意 贝 叶 斯 网 络 的 概率 的 确切 推理 已 经 知道 是 一 个 NP 难题 (Cooper 
1990)。 已 有 多 种 方法 在 贝 叶 斯 网 络 中 进行 概率 推理 ,包括 确切 的 推理 以 及 牺牲 精度 换取 效率 
的 近似 推理 方法 。 例 如 , Monte Carlo 方法 提供 了 一 种 近似 的 方法 ,通过 对 未 观察 到 的 变量 进 
行 随 机 采样 ( Pradham Dagum 1996)。 理 论 上 ,即使 是 贝 叶 斯 网 络 中 的 近似 推理 也 可 能 是 NP 
难题 (Dagnm 和 Luby 1993)。 幸 运 的 是 ,实践 中 许多 情况 下 近似 的 方法 被 证 明 是 有 效 的 ,对 于 
贝 叶 斯 网 络 推理 方法 的 讨论 由 Russell & Norvig(1995) 和 Jensen(1996) 作 出 。 


6.11.4 学 习 贝 叶 斯 信念 网 


是 否 可 以 设计 出 有 效 的 算法 以 从 训练 数据 中 学 到 贝 叶 斯 信念 网 ? 这 是 目前 研究 中 的 一 个 
焦点 问题 。 对 于 这 一 问题 有 多 种 可 以 考虑 的 框架 。 首 先 网 络 结构 可 以 预先 给 出 ,或 可 由 训练 
数据 中 推 得 。 其 次 ,所 有 的 网 络 变量 可 以 直接 从 每 个 训练 样 例 中 观察 到 ,或 某 些 变量 不 能 观察 
到 。 

当 网 络 结构 预先 已 知 且 变量 可 以 从 训练 样 例 中 完全 获得 时 ,通过 学 习 得 到 条 件 概率 表 就 
比较 简单 了 ,只 需要 像 在 朴素 贝 叶 斯 分 类 器 中 那样 估计 表 中 的 条 件 概 率 项 。 

若 网 络 结构 已 知 , 但 只 有 一 部 分 变量 值 能 在 数据 中 观察 到 ,学习 问题 就 困难 得 多 了 。 这 一 
问题 在 某 种 程度 上 类 似 于 在 人 工 神 经 网 络 中 学 习 隐 藏 单元 的 权 值 ,其 中 输入 和 输出 结 点 值 由 
训练 样 例 给 出 ,但 隐藏 单元 的 值 未 指定 。 实 际 上 , Russtll et al. (1995) 提 出 了 一 个 简单 的 梯度 
上 升 过 程 以 学 习 条 件 概率 表 中 的 项 。 这 一 梯度 上 升 过 程 搜索 一 个 假设 空间 , 它 对 应 于 条 件 概 
率 表 中 所 有 可 能 的 项 。 在 梯度 上 升 中 被 最 大 化 的 指标 函数 是 给 定 假设 h 下 观察 到 训练 数据 
D 的 概率 P( D1h)。 按 照 定义 , 它 相 当 于 对 表 项 搜索 极 大 似 然 假设 。 


6.11.5 贝 时 斯 网 的 梯度 上 升 训练 


由 Russell et al. (1995) 给 出 的 梯度 上 升 规则 通过 InP( D1h) 的 梯度 来 使 P(D1h) 最 大 
化 ,此 梯度 是 关于 定义 员 叶 斯 网 的 条 件 概率 表 的 参数 的 。 令 ix 代表 条 件 概率 表 的 一 个 表 项 。 
确切 地 讲 , 令 wi 为 在 给 定 父 结 点 U; 取 值 vn 时 ,网 络 变量 Y; 值 为 yj 的 概率 。 例 如 , 若 wi 为 
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图 6-3 中 条 件 概率 表 中 最 右上 方 的 表 项 ,那么 Y; 为 变量 Campfire, U; 是 其 父 结 点 的 元 组 
( Storm, BusTourGroup ), ys = True, fA uy = «False, False), HFEA w In P( D [AD BY 


梯度 由 导数 en6 O TA Ah, WEAR, AT SEAT HAF SHE 
OlnP(D | h) = DE ux | d) (6.25) 


Ow ij dED W ijk 

例如 ,为 计算 对 应 于 图 6-3 中 表 左上 方 的 表 项 的 lInP( D14h) 的 导数 ,需要 对 D 中 每 个 训练 
样 例 d 计 算 P(Campfire = True, Storm = False, BusTourGroup = False | d)。 当 训练 样 例 
d 中 无 法 观察 到 这 些 变 量 时 ,这 些 概 率 可 用 标准 的 贝 叶 斯 网 络 从 d 中 观察 到 的 变量 中 推理 得 
到 。 实 际 上 这 些 所 需 的 量 是 从 多 数 贝 叶 斯 网 络 推理 的 过 程 中 计算 得 到 的 ,因此 无 论 何 时 贝 叶 
斯 网 络 被 用 于 推理 并 且 随 即 获得 新 的 证 据 ,学 习 过 程 几乎 不 需要 附加 的 开销 。 

下 面 根据 Russell et al.(1995) 推 导 式 (6.25)。 本 节 的 后 面 在 第 一 次 阅读 时 可 以 被 跳 过 ， 
而 不 失 连 续 性 。 为 使 记号 简单 化 ,下 面 的 推导 将 用 P; (D ) 来 简写 P(D1h)。 因 此 ,我 们 的 问 


题 是 获得 对 所 有 i,j, 的 导数 集合 chs M2 las 假定 在 数据 集 D 中 的 各 样 例 d 都 是 独立 
抽取 的 ,可 将 此 导数 写 为 : 








a rm XCD 

lsP (d) 

Geb Ow ijk 

7 1 OP,(d) 

iD P,(d) Ow in 

ROT tL -L AG, gaara] ARM 蕊 和 U; = Parents 
( 了;) 的 值 ， 方法 是 通过 在 其 可 能 的 信 yy Al uy ERA 
OlnP,(D) 1 





9 
= -2 YP d | yip s ti ) Phl Yip s tiy 
Ow ijk dep Pald) dwir FH aC Yij ux ) n Yi uiy ) 


= EOE OG | yay > Uik ) Pa yy | uy ) Ph (ux) 
最 后 一 步 来 自 于 概率 的 乘法 公式 ， mon 现在 考虑 上 面 最 后 一 式 最 右边 的 求 和 项 。 
给 定 了 wine Pr yyl ta) 在 此 求 和 中 惟一 3 也 不 等 于 0 的 项 是 其 中 =jMi =i 的 项 , 因 


此 : 








alnP,(D) 1 
Duwi = 多 P,(d) dw anand | yyr ua) Pa Cig | ua) Pa wi) 
1 





PC d | yijs Uae) wirPsl wik) 





应 用 贝 叶 斯 公式 来 重 写 Py (dl yy ua) 可 得 : 


dlnP, (D) 1 P,(y, ua | d) Py d) Pp wa) 
Ow ii d€D P,(d) Pal yy» ug) 
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- 5 Palys wie | d) Ph Cun) 
”Zep Pi (yi, Ui) 
Phl yj ux | d) 
den Pr(yi | ua) 
Pi(yi, ux | d) 
- are (6.26) 
这 样 我 们 已 导出 了 式 (6.25) 中 的 梯度 。 在 描述 梯度 上 升 训 练 前 还 要 考虑 一 个 问题 。 确 切 
地 说 ,我 们 要 求 当权 wi 更 新 时 ,它们 必须 保持 有 效 概 率 在 区 间 [0, 1] 之 间 。 我 们 还 要 求 
2 wi 对 所 有 的 i, 上 保持 为 1。 这 些 限制 可 由 一 个 两 步骤 的 权 更 新 来 满足 。 首 先 用 梯度 上 升 


来 更 新 每 个 win 


P,(yij> vx | d) 
W ijk . 
其 中 ,7 是 一 小 的 常量 , 称 为 学 习 率 。 其 次 ,再 将 权 值 wi 归 一 化 ,以 保证 上 面 的 限制 得 到 
满足 。 如 Russell 所 描述 的 那样 ,这 一 过 程 将 收敛 到 贝 叶 斯 网 络 中 的 条 件 概 率 的 一 个 局 部 极 大 
似 然 假设 。 
像 在 其 他 基于 梯度 的 方法 中 那样 ,该 算法 只 保证 寻找 到 局 部 最 优 解 。 替 代 梯 度 上 升 的 一 
个 算法 是 EM 算法 , 它 在 第 6.12 节 中 讨论 , 它 也 只 找 局 部 极 大 可 能 解 。 


6.11.6 学 习 贝 叶 斯 网 的 结构 


当 网 络 结构 预先 未 知 时 ,学 习 贝 叶 斯 网 络 也 很 困难 。Cooper & Herskovits(1992) 提 出 了 一 
个 贝 叶 斯 评分 尺度 (Bayesian scoring metric) , 以便 从 不 同 网 络 中 进行 选择 。 他 们 还 提出 一 个 
称 为 K 的 启发 式 搜 索 算 法 用 于 在 数据 完全 可 观察 到 时 学 习 网 络 结构 。 像 多 数学 习 网 络 结构 
的 算法 一 样 , K2 执行 的 是 一 个 贪 焚 搜 索 , 以 便 在 网 络 的 复杂 性 和 它 在 训练 数据 上 的 精度 之 间 
作出 折 中 。 在 一 个 实验 中 ,K2 被 给 予 3000 个 训练 样 例 ,这 些 样 例 是 从 包含 了 37 个 节点 和 46 
条 弧 的 手工 创建 的 贝 叶 斯 网 络 中 随机 抽取 的 。 这 一 网 络 描述 了 在 一 医院 的 手术 室 中 潜在 的 细 
菌 问题 。 除 了 数据 以 外 ,程序 还 被 给 予 37 个 变量 的 初始 排序 , 它 与 实际 网 络 中 变量 之 间 的 偏 
序 关系 一 致 。 该 程序 成 功 地 创建 出 了 与 正确 网 络 结构 几乎 一 样 的 贝 叶 斯 网 络 ,除了 一 个 不 正 
确 地 被 删除 的 和 一 不 正确 地 被 加 入 的 弧 。 

基于 约束 的 学 习 贝 叶 斯 网 络 结构 的 途径 也 已 被 开发 出 来 (例如 ,Spirtes et al. 1993)。 这 
些 途 径 从 数据 中 推导 出 独立 和 相关 的 关系 ,然后 用 这 些 关 系 来 构造 贝 叶 斯 网 。 关 于 当前 学 习 
贝 叶 斯 网 的 途径 的 调查 由 Heckerman(1995) 和 Buntine(1994) 给 出 。 


6.12 EM 算法 


在 许多 实际 的 学 习 问题 框架 中 ,相关 实例 特征 中 只 有 一 部 分 可 观察 到 。 例如 ,在 训练 或 使 
用 图 6-3 中 的 贝 叶 斯 信念 网 时 ,网 络 变量 Storm, Lighting, Thunder , ForestFire, Campfire 
和 BusTourGroup 中 可 能 只 有 一 个 子 集 能 在 数据 中 观察 到 。 已 有 许多 方法 被 提出 用 来 处 理 存 
在 未 观察 到 该 变量 的 变量 的 问题 。 如 在 第 3 章 中 看 到 的 , 若 某 些 变量 有 时 能 观察 到 ,有 时 不 
能 ,那么 可 以 用 观察 到 该 变量 的 实例 去 预测 未 观察 到 的 实例 中 变量 的 值 。 在 本 节 中 描述 EM 
算法 ( Dempster et al. 1977) ,这 是 存在 隐 含 变量 时 广泛 使 用 的 一 种 学 习 方 法 。EM 算法 可 用 
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于 变量 的 值 从 来 没有 被 直接 观察 到 的 情形 ,只 要 这 些 变量 所 遵循 的 概率 分 布 的 一 般 形式 已 知 。 
EM 算法 已 被 用 于 训练 贝 叶 斯 网 ( 见 Heckerman 1995) 以 及 第 8.4 节 讨 论 的 径 向 基 函 数 (radial 
basis function) 网 络 。EM 算法 还 是 许多 非 监督 聚 类 算法 的 基础 (如 Cheeseman et al. 1988) ,而 
且 它 是 用 于 学 习 部 分 可 观察 马尔 可 夫 模 型 ( Partially Observable Markov Model) 的 广泛 使 用 的 
Baum-Welch 前 向 后 向 算法 的 基础 (Rabiner 1989)。 


6.12.1 估计 大 个 高 斯 分 布 的 均值 


介绍 EM 算法 最 方便 的 方法 是 通过 一 个 
例子 。 考 虑 数据 六 是 一 个 实例 集合 , 它 由 上 
个 不 同 正 态 分 布 的 混合 所 得 分 布 生成 。 该 问 
题 框架 在 图 6-4 中 显示 ,其 中 k=2 而 且 实 例 
为 沿 着 x 轴 显 示 的 点 。 每 个 实例 使 用 一 个 两 
步骤 过 程 形成 。 首 先 ,随机 选择 个 正 态 分 布 
中 的 一 个 。 其 次 ,随机 变量 x, 按照 此 选择 的 : 

分 布 生 成 。 这 一 过 程 不 断 重复 ,生成 一 组 数据 实例 为 沿 着 x 轴 显 示 的 点 集 。 如 果 正 态 分 布 的 

点 如 图 6-4 所 示 。 为 使 讨论 简单 化 ,我 们 考虑 SERR EM 算法 可 用 于 搜索 其 极 大 似 然 估计 

一 个 简单 情形 , 即 单个 正 态 分 布 的 选择 基于 均 图 64 由 两 个 具有 相等 方差 。 的 正 

匀 的 概率 进行 选择 ,并 且 上 个 正 态 分 布 有 相同 态 分 布 的 混合 生成 的 实例 

的 方差 cz, 且 o2 已 知 。 学 习 任 务 是 输出 一 个 假设 = (Ai . .由 》, 它 描述 了 大 个 分 布 中 每 一 个 
分 布 的 均值 。 我 们 希望 对 这 些 均值 找到 一 个 极 大 似 然 假设 , 即 一 个 使 p( D1h) 最 大 化 的 假设 
ho 

注意 , 当 给 定 从 一 个 正 态 分 布 中 抽取 的 数据 实例 x1，x2，. . . ，xm 时 ,很 容易 计算 该 分 布 
的 均值 的 极 大 似 然 假 设 。 这 一 寻找 单个 分 布 均值 的 问题 只 是 在 6.4 节 的 式 (6.6) 中 讨论 的 问 
题 的 一 个 特例 ,在 其 中 我 们 证 明了 极 大 似 然 假 设 是 使 m 个 训练 实例 上 的 误差 平方 和 最 小 化 的 
假设 。 使 用 当前 的 记号 重新 表述 一 下 式 (6.6), 可 以 得 到 : 








pi = argmin >) (x, ~ p)? (6.27) 
在 此 情况 下 ,误差 平方 和 是 由 样本 均值 最 小 化 的 : 
pm = Hi (6.28) 


然而 ,在 这 里 我 们 的 问题 涉及 到 上 个 不 同 正 态 分 布 的 混合 ,而 且 我 们 不 知道 哪个 实例 是 
哪个 分 布 产生 的 。 因 此 这 是 一 个 涉及 隐藏 变量 的 典型 例子 。 在 图 6-4 的 例子 中 ,可 把 每 个 实 
例 的 完整 描述 看 作 是 三 元 组 (x;， Zil» zi27 ,其 中 ， Xi 是 第 i 个 实例 的 观测 值 ， zi zi 表示 两 
个 正 态 分 布 中 哪个 被 用 于 产生 值 x;。 确 切 地 讲 , zj 在 x; 由 第 j 个 正 态 分 布 产生 时 值 为 1 ,否则 
为 0。 这 里 ,x; 是 实例 的 描述 中 已 观察 到 的 变量 , za 和 zz 是 隐藏 变量 。 如 果 za 和 zio 的 值 可 
知 ,就 可 以 用 式 (6.27) 来 解决 均值 w; 和 y2。 然 而 它们 未 知 ,因此 我 们 只 能 用 EM 算法 。 

EM 算法 应 用 于 我 们 的 均值 问题 ,目的 是 搜索 一 个 极 大 似 然 假设 ,方法 是 根据 当前 假设 
《ju...p) 不 断 地 再 估计 隐藏 变量 zi 的 期 望 值 。 然 后 用 这 些 隐 藏 变量 的 期 望 值 重新 计算 极 大 
似 然 假设 。 这 里 首先 描述 这 一 实例 化 的 EM 算法 ,以 后 将 给 出 EM 算法 的 一 般 形式 。 
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为 了 估计 图 6-4 中 的 两 个 均值 ,EM 算法 首先 将 假设 初始 化 为 h = Ce, oo) SEP A 和 
ro 为 任意 的 初始 值 。 然 后 重复 以 下 的 两 个 步骤 来 重 估计 h, 直 到 该 过 程 收敛 到 一 个 稳定 的 
值 。 
步 绝 1: 计 算 每 个 隐藏 变量 z; 的 期 望 值 E[ zi ] ,假定 当前 假设 h = (u, uD RE 
步骤 2: 计算 一 个 新 的 极 大 似 然 假设 h = (六 1 ， 六 >》, 假 定 每 个 隐藏 变量 zy 所 取 的 值 为 第 
1 步 中 得 到 的 期 望 值 EL 2 六 ] ,然后 将 假设 h= (a, u) BRAK k = 
《py'1，J'2) ,然后 循环 。 
现在 考察 第 一 步 是 如 何 实现 的 。 步 又 1 要 计算 每 个 z; 的 期 望 值 。 此 E[ z; ] 正 是 实例 x; 
由 第 j 个 正 态 分 布 生成 的 概率 : 
Ezy] = p(x = x;l y = p) 


2 
x= x; | = n 

STA ; L = fn) 

e 2° 





> 


Cave) 


因此 ,第 一 步 可 由 将 当前 值 (yi,y2) 和 已 知 的 x; 代 人 到 上 式 中 实现 。 

在 第 二 步 中 ,使 用 第 一 步 中 得 到 的 E[ zj ] 来 导出 一 新 的 极 大 似 然 假 设 A = lua uao 
如 后 面 将 讨论 到 的 ,这 时 的 极 大 似 然 假设 为 : 

op El ay] 
” 2 El zy] 

注意 ,此 表达 式 类 似 于 式 (6.28) 中 的 样本 均值 , 它 用 于 从 单个 正 态 分 布 中 估计 y。 新 的 表 
达 式 只 是 对 jy 的 加 权 样 本 均值 ,每 个 实例 由 第 j 个 正 态 分 布 产 生 的 期 望 值 E[ zy ] 来 权衡 。 

上 面 估计 上 个 正 态 分 布 均值 的 算法 描述 了 EM 方法 的 要 点 : 即 当前 的 假设 用 于 估计 未 知 
变量 ,而 这 些 变 量 的 期 望 值 再 被 用 于 改进 假设 。 可 以 证 明 , 在 此 算法 第 一 次 循环 中 ,EM 算法 
能 使 似 然 P(D14) 增 加 ,除非 P(DI1h) 已 达到 局 部 最 大 。 因 此 该 算法 收 化 到 对 于 jl， dW 
一 个 局 部 最 大 似 然 假 设 。 


6.12.2 EM 算法 的 一 般 表 述 


上 面 的 EM 算法 针对 的 是 估计 混合 正 态 分 布 均值 的 问题 。 更 为 一 般 的 情况 是 :EM 算法 
可 用 于 许多 问题 框架 ,其 中 需要 估计 一 组 描述 基准 概率 分 布 的 参数 9, 只 给 定 了 由 此 分 布 产生 
的 全 部 数据 中 能 观察 到 的 一 部 分 。 在 上 面 的 二 均值 问题 中 , 感 兴趣 的 参数 为 = 《jp ,2) ,而 
全 部 数据 为 三 元 组 (x;， Zils zi2) ,而 只 有 Xi 可 观察 到 。 一 般 令 X= (xis 。 xn) 代表 在 同 
样 的 实例 中 未 观察 到 的 数据 ,并 令 了 = XU 2 代表 全 体 数据 。 我 们 注意 到 未 观察 到 的 Z 可 被 
看 作 一 个 随机 变量 , 它 的 概率 分 布依 赖 于 未 知 参数 9 ACARAR X. SX, Y 是 一 个 随 
机 变量 ,因为 它 是 由 随机 变量 Z 来 定义 的 。 在 本 节 的 后 续 部 分 ,将 描述 EM 算法 的 一 般 形式 。 
使 用 h 来 代表 参数 8 的 假设 值 ,而 六 代表 在 EM 算法 的 每 次 迭代 中 修改 的 假设 。 

EM 算法 通过 搜寻 使 E[InP(Y1h’)] 最 大 的 h' 来 寻找 极 大 似 然 假设 加 。 此 期 望 值 是 在 
Y 所 遵循 的 概率 分 布 上 计算 ,此 分 布 由 未 知 参数 9 确定 。 考 虑 此 表达 式 究竟 意味 了 什么 。 首 
先 , P(Y1k') 是 给 定 假设 hr' 下 全 部 数据 Y 的 似 然 度 。 其 合理 性 在 于 我 们 要 寻找 一 个 h tE 
量 的 某 函 数值 最 大 化 。 其 次 ,使 该 量 的 对 数 nP Yh ) 最 大 化 也 使 PCY lA ) 最 大 化 ,如 已 经 
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介绍 过 的 那样 。 第 三 ,引入 期 望 值 [lInP(Y1h’')] 是 因为 全 部 数据 了 本 身 也 是 一 个 随机 变 
量 。 已 知 全 部 数据 Y 是 观察 到 的 和 未 观察 到 的 Z 的 合并 ,我 们 必须 在 未 观察 到 的 Z 的 可 
能 值 上 取 平 均 并 以 相应 的 概率 为 权 值 。 换 言 之 ,要 在 随机 变量 Y 遵循 的 概率 分 布 上 取 期 望 值 
E[InP(Y1h')]。 该 分 布 由 完全 已 知 的 值 加 上 2Z 服从 的 分 布 来 确定 。 

Y 遵从 的 概率 分 布 是 什么 呢 ? 一般 来 说 不 知道 此 分 布 ,因为 它 是 由 待 估计 的 9 参数 确定 
的 。 然 而 ,EM 算法 使 用 其 当前 的 假设 h 代替 实际 参数 09, 以 估计 了 的 分 布 。 现 定义 一 个 函数 
Q(h'1h), 它 将 E[InP(Y1h')] 作 为 hr 的 一 个 函数 给 出 ,在 0 = 六 和 全 部 数据 了 的 观察 到 的 
部 分 的 假定 之 下 。 

OCh’ lh) = E[Inp( YIA')Ih, X] 

将 0 函数 写成 0(h 1h) 是 为 了 表示 其 定义 是 在 当前 假设 h 等 于 9 的 假定 下 。 在 EM 算 
法 的 一 般 形式 里 , 它 重 复 以 下 两 个 步骤 直至 收敛。 

步骤 1 估计 (天 ) 步 又 :使 用 当前 假设 h 和 观察 到 的 数据 XRAY 上 的 概率 分 布 以 计算 

Q(h’ th). 
QO(h'th)<E[InP( Yih’) 1h, X] 

BR 2: KAM M) PRB h 替换 为 使 0 函数 最 大 化 的 假设 有: 

h<-argmaxQ(h’ lh) 

当 函 数 0 连续 时 ,EM 算法 收敛 到 似 然 函 数 PCY IA W—-TAS AR. SUR BRA 
单个 的 最 大 值 时 ,EM 算法 可 以 收敛 到 这 个 对 h' 的 全 局 的 极 大 似 然 估计 。 否 则 , 它 只 保证 收敛 
到 一 个 局 部 最 大 值 。 因 此 ,EM 与 其 他 最 优化 方法 有 同样 的 局 限 性 ,如 第 4 章 讨论 的 梯度 下 
RE RAB He MSE EE BE 


6.12.3 天 均值 算法 的 推导 


为 说 明 一 般 的 EM 算法 ,我 们 用 它 来 推导 第 6.12.1 节 中 估计 个 正 态 分 布 混合 均值 的 算 
法 。 如 上 所 讨论 ,k 均值 算法 是 为 了 估计 个 正 态 分 布 的 均值 9 = Ai，.…，Ar)。 已 有 的 数 
据 为 观察 到 的 下 = |《x;)| ,这 里 的 隐藏 变量 Z = 1《 zit，...，za)| 表 示 上 个 正 态 分 布 中 哪 一 个 
用 于 生成 xio 

要 应 用 EM 算法 ,必须 推导 出 可 用 于 上 均值 问题 的 表达 式 OC Ih) KITH np 
(Y1h') 的 表达 式 。 注 意 ,每 个 实例 y; = 《x;，zil ，.. . zw) 的 概率 p(y;1h') 可 被 写作 : 


/ / 1 “2 Djaya 

p(y | W) = plazas- sza lW) = 7 

要 验证 此 式 ,必须 注意 只 有 一 个 z; 值 为 1, 其 他 的 为 0。 因 此 ,该 式 给 出 了 由 所 选 的 正 态 
分 布 生成 的 x; 的 概率 分 布 。 已 知 单个 实例 的 分 布 p(y;1h'), 所 有 m 个 实例 的 概率 的 对 数 


InP(Y1h’) 为 ;: 





mP(Y 1h’) = In] p(y |B’) 
= > np(y Eh) 


m 1 ly 2 
= l - 532, Zyl xi — 1"j) ) 
>| i 2x0 295 K Bi 
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最 后 ,必须 在 了 所 遵从 的 概率 分 布 上 ,也 就 是 Y 的 未 被 观察 到 的 部 分 zy 遵从 的 概率 分 布 
上 ,计算 此 nP YIR ) 的 均值 。 注 意 , 上 面 InP(Y1h') 的 表达 式 为 这 些 zi; 的 线性 函数 。 一 般 
情况 下 ,对 z 的 任意 线性 函数 /(z) 来 说 , 下面 的 等 式 成 立 ， 
El f(z)] = f(E[z]) 
根据 此 等 式 ,可 得 : 


E[InP(Y | h’)] = 





1 
by 
— 
‘Me 
一 
_ 
3 
3 
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N 
wv 
Q 
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= (In 1 -Ell - '))") 
概括 地 说 ， PSRRERER 0 1): 
QCh | h) = (In z5- shad) Bl yl - w'y?) 


其 中 ,hr = (uy, opa) M we es h 和 观察 到 的 数据 X 计算 得 出 。 如 前 
所 讨论 : yt 
Sar (6.29) 
因此 ,EM 算法 的 第 1 步 是 (估计 步 ) 基 于 估计 的 E[ zy ] 项 定义 了 0 函数 。 第 2 步 (最 大 
化 步 ) 接 着 寻找 使 此 0 函数 最 大 的 值 六 ; ，. ..，mss 在 当前 例子 中 : 


E[ zi] = 


m 1 1< ， 
argmax Q(h’ lh) = argmax >, (In 万- 一 30 2a El ay lx 一 wi?) 
no 


= argmin >) Dela wy (6.30) 


因此 ， 这 里 的 极 大 似 然 假设 使 平方 误差 的 加 权 和 最 小 化 了 ， 其 中 每 个 实例 x; 对 误差 的 贡 
Ry’ 权 为 E[ z;]。 由 等 式 (6.30) 给 出 的 量 是 通过 将 每 个 pi 设 为 加 权 样 本 均值 来 最 小 化 。 
Dope El ay] x 
u; < Sir pla] (6.31) 
式 (6.29) 和 式 (6.31) 定 义 了 第 6.12.1 节 中 定义 的 k 均值 算法 中 的 两 个 步骤 。 


6.13 “小结 和 补充 读物 


本 章 的 要 点 包括 ; 

o 概率 学 习 方法 利用 (并 且 要 求 ) 关 于 不 同 假设 的 先 验 概率 以 及 在 给 定 假设 时 观察 到 不 同 
数据 的 概率 的 知识 。 贝 叶 斯 方法 则 提供 了 概率 学 习 方 法 的 基础 。 贝 叶 斯 方法 还 可 基于 
这 些 先 验 和 数据 观察 假定 ,赋予 每 个 候选 假设 一 个 后 验 概率 。 

© 贝 叶 斯 方法 可 用 于 确定 在 给 定数 据 时 最 可 能 的 假设 一 一 极 大 后 验 概率 (MAP) 假 设 。 
它 比 其 他 的 假设 更 可 能 成 为 最 优 假设 。 

© 贝 叶 斯 最 优 分 类 器 将 所 有 假设 的 预测 结合 起 来 ,并 用 后 验 概率 加 权 , 以 计算 对 新 实例 的 
最 可 能 分 类 。 

o 朴素 贝 叶 斯 分 类 器 是 在 许多 实际 应 用 问题 中 很 有 效 的 一 种 贝 叶 斯 学 习 方法 。 它 之 所 以 
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被 称 为 是 朴素 的 (naive) 是 因为 它 的 简化 假定 :属性 值 在 给 定 实例 的 分 类 时 条 件 独立 。 
当 该 假定 成 立时 ,朴素 贝 叶 斯 分 类 器 可 输出 MAP 分 类 。 即 使 此 假定 不 成 立 ,在 学 习 分 
类 文本 的 情况 下 ,朴素 贝 叶 斯 分 类 通常 也 是 很 有 效 的 。 贝 叶 斯 信念 网 为 属性 的 子 集 上 
的 一 组 条 件 独立 性 假定 提供 了 更 强 的 表达 能 力 。 
o 贝 叶 斯 推理 框架 可 对 其 他 不 直接 应 用 贝 叶 斯 公式 的 学 习 方 法 的 分 析 提 供 理论 基础 。 例 
如 ,在 特定 条 件 下 学 习 一 个 对 应 于 极 大 似 然 假 设 的 实 值 目标 函数 时 , 它 可 使 误差 平方 最 
小 化 。 . 
e 最 小 描述 长 度 准则 建议 选取 这 样 的 假设 , 它 使 假设 的 描述 长 度 和 给 定 假 设 下 数据 的 描 
述 长 度 的 和 最 小 化 。 贝 叶 斯 公式 和 信息 论 中 的 基本 结论 可 提供 此 准则 的 根据 。 
o 在 许多 实际 的 学 习 问 题 中 , 某 些 相关 的 实例 变量 是 不 可 观察 到 的 。EM 算法 提供 了 一 
个 很 通用 的 方法 , 当 存 在 隐藏 变量 时 进行 学 习 。 该 算法 开始 于 一 个 任意 的 初始 假设 。 
然后 迭代 地 计算 隐藏 变量 的 期 望 值 (假定 当前 假设 是 正确 的 ) ,再 重新 计算 极 大 似 然 假 
设 (假定 隐藏 变量 等 于 第 1 步 中 得 到 的 期 望 值 )。 这 一 过 程 收敛 到 一 个 局 部 的 极 大 似 然 
假设 以 及 隐藏 变量 的 估计 值 。 
在 概率 和 统计 方面 有 许多 很 好 的 介绍 性 文章 ,如 Casella & Berger (1990)。 几 本 快速 参考 类 
书籍 (如 Maisel 1971, Speigel 1991) 也 对 机 器 学 习 相关 的 概率 和 统计 理论 提供 了 很 好 的 阐述 。 
对 贝 叶 斯 分 类 器 和 最 小 平方 误差 分 类 器 的 基本 介绍 由 Duda & Hart (1973) 给 出 , Domigos 
& Pazzani(1996) 分 析 了 在 什么 条 件 下 朴素 贝 叶 斯 方法 可 输出 最 优 的 分 类 ,即使 其 独立 性 假定 
不 成 立时 (关键 在 于 在 什么 条 件 下 即使 相关 联 的 后 验 概率 估计 不 正确 也 可 输出 最 优 分 类 )。 
Cestnik (1990) 讨 论 了 使 用 m- 估 计 来 估计 概率 。 
将 不 同 贝 叶 斯 方法 与 决策 树 等 其 他 算法 进行 比较 的 实验 结果 可 在 Michie et al. (1994) 中 
找到 。Chauvin & Rumelhart (1995) 提 供 了 基于 反 向 传播 算法 的 神经 网 络 的 贝 叶 斯 分 析 。 
对 最 小 描述 长 度 准 则 的 讨论 可 参考 Rissanen (1983, 1989). Quinlan & Rivest(1989) 描 
述 了 其 使 用 以 避免 决策 树 的 过 度 拟 合 。 
习题 
6.1 再 次 考虑 6.2.1 节 中 应 用 贝 叶 斯 规则 的 例子 。 假 定 医生 决定 对 该 病人 做 第 二 次 化 验 测 
试 ,而 且 化 验 结果 也 为 正 。 根 据 这 两 次 测试 , cancer HIT cancer 的 后 验 概率 是 多 少 ? W 
定 两 个 测试 是 相互 独立 的 。 
6.2 在 6.2.1 节 的 例子 中 ,为 计算 癌症 的 后 验 概率 ,通过 将 P( + | cancer ) + P(cancer) 和 和 
P( +17 cancer )* P(— cancer ) 归 一 化 使 它们 的 和 为 1。 使 用 贝 叶 斯 公式 和 全 概率 公式 
( 见 表 6-1) 证 明 该 方法 是 正确 的 ( 即 这 样 的 归 一 化 可 以 得 到 PC cancer | + ) 的 正确 值 )。 
6.3 考虑 下 面 的 概率 学 习 算法 FindC , 它 输出 一 个 极 大 一 般 化 的 一 致 假设 (例如 ,变型 空间 
的 某 个 极 大 一 般 成 员 )。 
(a) 给 出 P(h) 和 P(DI1h) 的 分 布 ,以 使 FindG 保证 输出 MAP 假设 。 
(b) 给 出 P(h) 和 P(D1h) 的 分 布 ,以 使 FindG 不 能 保证 输出 MAP 假设 。 
(c) 给 出 P(h) 和 P(DI1h) 的 分 布 ,以 使 FindG 保证 输出 ML 假设 但 不 是 MAP 假 
6.4 在 6.3 节 中 的 概念 学 习 分 析 中 ,假定 实例 序列 (xi...xn) 是 固定 的 。 因 此 ,在 推导 
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6.5 


6.6 





P( Dh) REAN AGS BSR ABP d,...d, HES SRE-RMHNK, 
即 实例 顺序 不 固定 ,但 是 它们 是 从 实例 空间 站 上 定义 的 某 概率 分 布 上 独立 抽取 的 。 数 
E D 现在 必须 被 描述 为 一 组 序 偶 1《x;，d;)| ,而 P(D14) 必 须 能 反映 遇 到 特定 实例 x; 
的 概率 以 及 目标 值 d; 的 概率 。 证 明 在 此 一 般 框 架 中 式 (6.5) 仍 然 成 立 。 提 示 : 参 考 6.5 
节 中 的 分 析 。 
考虑 将 最 小 描述 长 度 准则 应 用 到 一 个 假设 空间 H, CURES n 个 布尔 属性 的 合 取 
(如 : Sunny A Warm )。 假 定 每 个 假设 的 编码 为 简单 地 将 假设 中 出 现 的 属性 列举 出 来 ， 
其 中 为 了 编码 任意 一 个 n 布尔 属性 所 需 位 数 为 logsn。 设 想 给 定 假设 下 样 例 编码 方式 
为 :车 样 例 与 假设 一 致 编码 需 0 位 ,否则 用 logzm 位 (表示 m 个 样 例 中 哪些 被 误 分 类 了 
一 一 正确 的 分 类 可 由 该 假设 预测 的 值 的 否定 得 到 )。 

(a) 按照 最 小 描述 长 度 准 则 , 写 出 要 被 最 小 化 的 量 的 表达 式 。 

(b) 是 否 可 能 建立 一 组 训练 数据 ,使 存在 一 个 一 致 假设 ,但 MDL 选择 了 一 个 较 不 一 

致 的 假设 。 如 果 是 这 样 ,给 出 这 样 的 训练 集 ,否则 解释 为 什么 。 

(c) 给 出 P(h) 和 P(D1h) 的 概率 分 布 以 使 上 面 的 MDL 算法 输出 MAP 假设 。 
考虑 第 6.9.1 节 中 PlayTennis 问题 的 朴素 贝 叶 斯 分 类 器 ,用 贝 叶 斯 信念 网 画 出 其 中 使 
用 的 条 件 独立 性 假定 。 给 出 与 结 点 Wind 相关 联 的 条 件 概 率 表 。 
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第 7 章 计算 学 习 理 论 


本 章 从 理论 上 刻画 了 若干 类 型 的 机 器 学 习 问题 中 的 困难 和 若干 类 型 的 机 器 学 习 算法 的 能 
力 。 该 理论 致力 于 回答 如 下 的 问题 :“ 在 什么 样 的 条 件 下 成 功 的 学 习 是 可 能 的 ?” 和 “在 什么 条 
件 下 某 个 特定 的 学 习 算法 可 保证 成 功 运行 ?”。 为 了 分 析 学 习 算 法 ,这 里 考虑 了 两 种 框架 。 在 
可 能 近似 正确 (PAC) 的 框架 下 ,我 们 确定 了 若干 假设 类 别 , 判 断 它们 能 否 从 多 项 式 数 量 的 训练 
样 例 中 学 习 得 到 。 我 们 还 定义 了 一 个 对 假设 空间 的 自然 度量 ,由 它 可 以 界定 归纳 学 习 所 需 的 
训练 样 例 数目 。 在 出 错 界限 (mistake bound) 框 架 下 ,我 们 考查 了 一 个 学 习 器 在 确定 正确 假设 
前 可 能 产生 的 训练 错误 数量 。 


7.1 简介 


在 研究 机 器 学 习 过 程 中 ,很 自然 地 想 知道 学 习 器 (机 器 的 或 非 机 器 的 ) 应 遵循 什么 样 的 规 
则 。 是 否 可 能 独立 于 学 习 算法 确定 学 习 问 题 中 固有 的 难度 ?能 否 知 道 为 保证 成 功 的 学 习 有 多 
少 训练 是 必要 的 或 充足 的 ? 如 果 学 习 咒 被 允许 向 施 教 者 提出 查询 ,而 不 是 观察 训练 集 的 随机 
样本 ,会 对 所 和 需 样 例 数目 有 怎样 的 影响 ? 能 否 刻 画 出 学 习 器 在 学 到 目标 函数 前 会 有 多 少 次 出 
错 ? 能 否 刻画 出 一 类 学 习 问题 中 固有 的 计算 复杂 度 ? 

虽然 对 所 有 这 些 问 题 的 一 般 回答 还 未 知 ,但 是 不 完整 的 学 习 计 算 理论 已 经 开始 出 现 。 本 
章 阐述 了 该 理论 中 的 一 些 关 键 结论 , 并 提供 了 在 特定 问题 下 一 些 问题 的 答案。 这 里 我 们 着 重 
讨论 只 给 定 目标 函数 的 训练 样 例 和 候选 假设 空间 的 条 件 下 ,对 该 未 知 的 目标 函数 的 归纳 学 习 
问题 。 在 这 样 的 框架 下 ,主要 要 解决 的 问题 如 :需要 多 少 训练 样 例 才 足以 成 功 地 学 习 到 目标 函 
数 以 及 学 习 器 在 达到 目标 前 会 出 多 少 次 错 。 后 面 将 对 这 些 问 题 提 出 定量 的 上 下 界 , 这 基于 学 
习 问 题 的 如 下 属性 : 

© 学 习 器 所 考虑 的 假设 空间 的 大 小 和 复杂 度 

© 目标 概念 须 近 似 到 怎样 的 精度 

o 学 习 器 输出 成 功 的 假设 的 可 能 性 

© 训练 样 例 提供 给 学 习 器 的 方式 

本 章 的 大 部 分 将 不 会 着 重 于 单独 的 学 习 算 法 ,而 是 在 较 宽 广 的 学 习 算 法 类 别 中 刻画 所 考 
虑 的 假设 空间 以 及 训练 样 例 的 提供 方式 等 。 我 们 的 目标 是 为 了 回答 以 下 的 问题 ; 

© 样本 复杂 度 (Sample complexity) :学 习 器 要 收敛 到 成 功 假设 (以 较 高 的 概率 ) ,需要 多 少 

训练 样 例 ? 
© 计算 复杂 度 (Computational complexity) :学 习 器 要 收敛 到 成 功 假设 (以 较 高 的 概率 ) 需 要 
多 大 的 计算 量 ? 

@ 出 错 界限 (Mistake bound) :在 成 功 收敛 到 一 个 假设 前 ， 学 习 器 对 训练 样 例 的 错误 分 类 有 
多 少 次 ? 

注意 ,为 了 解决 这 些 问题 需要 许多 特殊 的 条 件 设 定 。 例 如 ,有 许多 方法 来 指定 对 于 学 习 器 
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什么 是 “成 功 的 ”"。 一 种 可 能 的 判断 方法 是 :学 习 器 是 否 输出 等 于 目标 概念 的 假设 。 另 一 种 方 
法 是 :只 要 求 输出 的 假设 与 目标 概念 在 多 数 时 间 内 意见 一 致 ,或 是 学 习 器 通常 会 输出 这 样 的 假 
设 。 与 此 类 似 , 还 必须 指定 学 习 器 是 如 何 获得 训练 样 例 的 。 可 以 指定 训练 样 例 由 一 个 施 教 者 
给 出 ,或 由 学 习 器 自己 实验 获得 ,或 按照 某 过 程 随 机 地 生成 而 不 受 学 习 器 的 控制 。 可 以 预料 ， 
对 上 述 问题 的 回答 依赖 于 我 们 所 考虑 的 特定 框架 或 学 习 模型 。 

本 章 的 后 续 内 容 安排 如 下 :7.2 节 介 绍 可 能 近似 正确 (PAC) 学 习 框 架 。7.3 节 在 此 PAC 
框架 下 分 析 了 几 种 学 习 算法 的 样本 复杂 度 和 计算 复杂 度 。7.4 节 介 绍 了 假设 空间 复杂 度 的 一 
个 重要 度量 标准 , 称 为 VC 维 , 并 且 将 PAC 分 析 扩 展 到 假设 空间 无 限 的 情况 。7.5 节 介绍 了 出 
错 界限 模型 ,并 提供 了 前 面 章 节 中 几 个 学 习 算法 出 错 数 量 的 界限 。 最 后 ,介绍 了 加 权 多 数 算 
法 , 它 是 一 个 结合 多 个 学 习 算 法 来 产生 合并 的 预测 的 实用 算法 ,还 介绍 了 该 算法 的 理论 出 错 界 
限 。 


7.2 可 能 学 习 近 似 正确 假设 


本 节 我 们 考虑 学 习 问 题 的 一 种 特殊 框架 , 称 为 可 能 近似 正确 (probably approximately cor- 
rect，PAC) 学 习 模型 。 首 先 我 们 指定 PAC 学 习 模 型 适用 的 问题 ,然后 分 析 在 此 PAC 模型 下 学 
习 不 同类 别 的 目标 函数 需要 多 少 训 练 样 例 和 多 大 的 计算 量 。 为 简明 起 见 ,这 里 的 讨论 将 限制 
在 学 习 布 尔 值 概念 , 且 训 练 数据 是 无 噪声 的 。 然 而 ,许多 结论 可 扩展 到 更 一 般 的 情形 ,如 学 习 
实 值 目标 函数 (比如 , Natarajan 1991 ) ,或 从 某 种 有 噪声 数据 中 进行 学 习 ( 例 如 , 见 Laird 1988, 
Kearns & Vazirani 1994), 


7.2.1 问题 框架 


同 前 面 的 章节 一 样 , 令 代表 所 有 实例 的 集合 ,目标 函数 在 其 上 定义 。 例 如 ,XX 可 表示 所 
有 人 的 集合 ,每 个 人 描述 为 属性 age ( young 或 old) 和 height (short R tall), S C 代表 学 习 
器 要 学 习 的 自 标 概 念 集合 。C 中 每 个 目标 概念 对 应 于 X 的 某 个 子 集 或 一 个 等 效 的 布尔 函数 
c:X>10,1]. WM, C 中 一 个 目标 函数 。 为 概念 :是 滑雪 的 人 "。 若 * 是 c 的 正 例 , 则 
c(x)=1; 若 x 为 反例 , 则 c(x) =0。 

假定 实例 按照 某 概率 分 布 多 从 X 中 随机 产生 。 例 如 多 可 以 是 从 某 体 育 用 品 商 店 走出 来 
的 人 这 样 一 个 实例 分 布 。 一 般 , 多 可 为 任何 分 布 ,而 且 它 对 学 习 器 是 未 知 的 。 对 于 AER 
的 是 它 的 稳定 性 , 即 该 分 布 不 会 随时 间 变 化 。 训 练 样 例 的 生成 按照 多 分 布 随机 抽取 实例 x , 然 
后 x 及 其 目标 值 c(x ) 被 提供 给 学 习 器 。 

学 习 器 在 学 习 目 标 概 念 时 考虑 可 能 假设 的 集合 H。 例 如 ,有 H 可 为 所 有 能 由 属性 age 和 
height 的 合 取 表示 的 假设 集合 。 在 观察 了 一 系列 关于 目标 概念 c 的 的 训练 样 例 后 , L 必须 从 
中 输出 某 假设 h, 它 是 对 c 的 估计 。 为 公平 起 见 , 我 们 通过 在 从 X 中 抽取 的 新 实例 上 的 性 
能 来 评估 L 是 否 成 功 。 抽 取 过 程 按照 分 布 尺 即 与 产生 训练 数据 相同 的 概率 分 布 。 

在 此 框架 下 ,我 们 感 兴趣 的 是 刻画 不 同学 习 器 L 的 性 能 ,这 些 学 习 器 使 用 不 同 假设 空间 
吕 , 并 学 习 不 同类 别 的 C 中 的 目标 概念 。 由 于 我 们 要 求 二 足够 一 般 , 以 至 可 以 从 C 中 学 到 任 
何 目 标 概念 而 不 管 训练 样 例 的 分 布 如 何 。 所 以 ,我 们 经 常会 对 C 中 所 有 可 能 的 目标 概念 和 所 
有 可 能 的 实例 分 布 多 进行 最 差 情况 的 分 析 。 
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7.2.2 假设 的 错误 率 


为 了 描述 学 习 器 输出 的 假设 h 对 真实 目标 概念 的 逼近 程度 ,首先 要 定义 假设 h 对 应 于 目 
RA c 和 实例 分 布 DW KK BIRR (true error)。 非 形式 的 描述 是 :h 的 真实 错误 率 为 应 用 
到 将 来 按 分 布 多 抽取 的 实例 时 的 期 望 的 错误 率 。 实 际 上 第 5 章 已 经 定义 了 h 的 真实 错误 率 。 
为 方便 起 见 ,这 里 重 述 一 下 该 定义 ,使 用 c 表示 布尔 目标 函数 。 


定义 :假设 h 的 关于 目标 概念 。 和 分 布 多 的 真实 错误 率 (true error) 为 h 误 分 类 根据 多 随 
机 抽取 的 实例 的 概率 。 
errord h) = Pr[e(x) x h(x)] 
这 里 ,符号 Pr 代表 在 实例 分 布 9 上 的 概率 。 


图 7-1 显示 了 该 错误 率 的 定义 。 概 念 “ 和 4 被 表示 为 X 中 标 为 正 例 的 实例 集合 。h 关于 
c 的 错误 率 为 随机 选取 的 实例 落 人 hh Ale 不一致 的 区 间 ( 即 它们 的 集合 差 ) 的 概率 。 注 意 , 错 
误 率 定义 在 整个 实例 分 布 之 上 ,而 不 只 是 训练 样 例 上 ,因为 它 是 在 实际 应 用 此 假设 h 到 后 续 
实例 上 时 会 遇 到 的 真实 错误 率 。 


实例 空间 X 





c 和 4 不 一 致 的 区 间 


SEF c Mh 的 错误 率 为 一 个 随机 抽取 的 实例 落 入 h 和 < 对 它 的 分 类 不 一 致 的 区 间 的 概率 。 + 和 - 点 表示 正 反 
训练 例 。 注 意 ,h 关于 c 有 一 个 非 零 的 错误 率 ,尽管 氨 今 为 止 h 和 < 在 所 有 5 个 训练 样 例 上 都 一 致 


图 7-1 关于 目标 概念 假设 h 的 错误 率 


注意 ,此 错误 率 紧密 地 依赖 于 未 知 的 概率 分 布 Z 例如 ,如 果 多 是 一 个 均匀 的 概率 分 布 ， 
它 对 X 中 每 个 实例 都 赋予 相同 的 概率 ,那么 图 7-1 中 假设 的 错误 率 为 h Ale 不 一 致 的 空间 在 
全 部 实例 空间 中 的 比例 。 然 而 ,如 果 多 恰好 把 h 和 不 一 致 区 间 中 的 实例 赋予 了 很 高 的 概 
率 ,相同 的 A 和。 将 造成 更 高 的 错误 率 。 极 端 情况 下 , 若 多 对 满足 h(x) = c(x) 的 所 有 实例 赋 
予 零 概率 ,图 7-1 中 h 的 错误 率 将 为 1, 而 不 论 h 和 < 在 多 少 实例 上 分 类 一 致 。 

最 后 ,注意 h 关于 c 的 错误 率 不 能 直接 由 学 习 器 观察 到 。 工 只 能 观察 到 在 训练 样 例 上 户 
的 性 能 , 它 也 只 能 在 此 基础 上 选择 其 假设 输出 。 我 们 将 使 用 术语 训练 错误 率 (training error) 来 
指 代 训练 样 例 中 被 六 误 分 类 的 样 例 所 占 比例 ,以 区 分 上 面 定 义 的 真实 错误 率 。 这 里 关于 学 习 
复杂 度 的 分 析 多 数 围绕 着 这 样 的 问题 “ 记 的 观察 到 的 训练 错误 率 对 真实 错误 率 error Kh) 产 
生 不 正确 估计 的 可 能 性 有 多 大 ?”。 

注意 ,此 问题 与 第 5 章 考虑 的 问题 之 间 有 密切 联系 。 回 忆 在 第 5 ERELT h 关于 样 例 
集合 S 的 样本 错误 率 (sample error) 为 样 例 集合 S 中 被 误 分 类 的 样 例 所 占 比 例 。 上 面 定义 
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的 训练 错误 率 就 是 当 5 为 训练 样 例 集合 时 的 样本 错误 率 。 在 第 5 章 中 ,我 们 在 数据 样本 S 独 
WF h 抽取 的 前 提 下 ,确定 样本 错误 率 对 估计 真实 错误 率 产生 误导 的 概率 。 然 而 当 5 是 训练 
数据 集合 时 ,学 到 的 假设 则 依赖 于 $。 因 此 ,本 章 将 给 出 这 一 重要 的 特殊 情形 下 的 分 析 。 


7.2.3 PAC 可 学 习性 


我 们 的 目标 是 刻画 出 这 样 的 目标 概念 ,它们 能 够 从 合理 数量 的 随机 抽取 训练 样 例 中 通过 
合理 的 计算 量 可 靠 地 学 习 到 。 

对 于 可 学 习性 怎样 进行 表述 呢 ? 一 种 可 能 的 选择 是 描述 为 了 学 习 到 使 errorof h) = 0 的 
假设 ,所 需 的 训练 样 例 数 。 遗 憾 的 是 ,这 样 的 选择 是 不 可 行 的 ,原因 有 两 个 :首先 ,除非 对 X 
中 每 个 可 能 的 实例 都 提供 训练 样 例 (一 个 不 实际 的 假定 ) ,否则 会 有 多 个 假设 与 训练 样 例 一 致 ， 
而 且 学 习 器 无 法 保证 选择 到 目标 概念 。 其 次 ,由 于 训练 样 例 是 随机 抽取 的 ,总 有 一 个 非 0 的 概 
率 使 得 学 习 器 面临 的 训练 样 例 有 误导 性 (例如 ,虽然 我 们 经 常 可 见 到 不 同 身高 的 滑雪 者 ,但 在 
某 一 天 中 也 存在 这 样 的 机 会 ,所 有 训练 样 例 都 刚好 是 2 米 高 )。 

为 解决 这 两 个 困难 ,我 们 用 两 种 方法 弱化 了 对 学 习 器 的 要 求 。 首 先 ,我 们 不 要 求学 习 器 输 
出 零 错误 率 假设 ,而 只 要 求 其 错误 率 被 限定 在 某 常 数 e 的 范围 内 ,e 可 为 任意 小 。 其 次 ,不 再 
要 求学 习 器 对 所 有 的 随机 抽取 样 例 序 列 都 能 成 功 ,只 要 求 其 失败 的 概率 被 限定 在 某 个 常数 8 
的 范围 内 ,8 也 可 取 任 意 小 。 简 而 言 之 ,我 们 只 要 求学 习 器 可 能 学 习 到 一 个 近似 正确 的 假设 ， 
因此 得 到 了 该 术语 “可 能 近似 正确 学 习 "或 PAC 学 习 。 

考虑 某 一 可 能 的 目标 概念 的 类 别 C 和 使 用 假设 空间 已 的 学 习 器 工 。 非 形式 地 说 ,对 C 
中 任意 目标 概念 c, 若 在 观察 到 合理 数目 的 训练 样 例 并 执行 了 合理 的 计算 量 后 , L 以 概率 (1 - 
6) 输出 一 个 errorolh) < e 的 假设 , 则 我 们 称 概念 类 别 C 是 可 以 被 使 用 妃 的 工 所 PAC 学 习 
的 。 更 精确 的 定义 如 下 : 


定义 :考虑 定义 在 长 度 为 n 的 实例 集合 X 上 的 一 概念 类 别 C, 学 习 器 L 使 用 假设 空间 已 。 
当 对 所 有 CEC, X EMA De 满足 0<e <1/2 以 及 5 满足 0<5<1/2 时 ,学 习 器 工 将 以 
BD 1 -6 RRB AC H, fH error hh) <e, 这 时 称 C EEH H KL 可 PAC 学 习 
的 。 所 使 用 的 时 间 为 1/e 、1/6、n 以 及 size(c) 的 多 项 式 函 数 。 


这 里 的 定义 要 求 L 满足 两 个 条 件 。 首 先 , L 必须 以 任意 高 概率 (1 - 5) 输出 一 个 错误 率 任 
意 低 (e) 的 假设 。 其 次 ,学 习 过 程 必须 是 高 效 的 ,其 时 间 最 多 以 多 项 式 方式 增长 ,多 项 式 中 1/e 
和 1/6 定义 了 对 输出 假设 要 求 的 强度 , n 和 size(c) 则 定义 了 实例 空间 X MBSA CA 
有 的 复杂 度 。 这 里 ,n AX 中 实例 的 长 度 。 例 如 ,如 果实 例 为 个 布尔 值 的 合 取 ,那么 n=。 
size( c) 为 假定 对 C 采用 某 种 表示 方法 时 , C 中 的 概念 的 编码 长 度 。 例 如 , 若 C 中 的 概念 为 
至 多 大 个 布尔 特征 的 合 取 , 每 个 概念 通过 列 出 合 取 式 中 的 特征 编号 来 描述 ,那么 size(c) 为 实 
际 用 来 描述 c 的 布尔 特征 数量 。 

这 里 对 PAC 学 习 的 定义 看 上 去 只 关心 学 习 所 需 的 计算 资源 ,而 在 实践 中 ,通常 更 关心 所 
需 的 训练 样 例 数 。 然 而 这 两 者 是 紧密 相关 的 :如 果 L 对 每 个 训练 样 例 需 要 某 最 小 处 理 时 间 ， 
那么 为 了 使 e HEL TA PAC 学 习 的 ,上 必须 从 多 项 式 数量 的 训练 样 例 中 进行 学 习 。 实 际 上 ,为 
显示 某 目标 概念 类 别 C 是 可 PAC 学 习 的 ,一 个 典型 的 途径 是 证 明 C 中 每 个 目标 概念 可 以 从 
多 项 式 数量 的 训练 样 例 中 学 习 到 ,而 后 证 明 每 样 例 处 理 时 间 也 限制 于 多 项 式 级 。 
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在 继续 讨论 以 前 ,必须 指出 隐 含 在 PAC 可 学 习性 定义 中 的 一 个 严格 的 限制 。 该 定义 隐 含 
假定 了 学 习 器 的 假设 空间 H 包含 一 个 假设 , 它 与 C 中 每 个 目标 概念 可 有 任意 小 的 误差 。 这 
一 点 来 源 于 上 面 定义 中 要 求学 习 器 误差 界限 e 任意 接近 于 0 时 也 能 成 功 运行 。 当 然 , MRM 
先 不 知道 C ,将 很 难保 证 这 一 点 (对 于 一 个 从 图 像 中 识别 出 人 脸 的 程序 来 说 , C 是 什么 呢 ?)， 
除非 H 取 为 X RSFSR. WSS 2 章 指出 的 ,这 样 一 个 无 偏 的 五 将 不 会 从 合理 数量 的 训练 样 例 
中 泛 化 。 不 过 ,基于 PAC 学 习 模 型 的 结论 ,对 于 领会 不 同学 习 问 题 的 相对 复杂 度 以 及 泛 化 精 
度 随 着 训练 样 例 而 提高 的 比率 十 分 有 益 。 更 进一步 ,第 7.3.1 节 中 将 解除 这 一 严格 假定 ,以 考 
虑 学 习 器 不 预先 假定 目标 概念 形式 的 情况 。 


7.3 有限 假设 空间 的 样本 复杂 度 


如 上 所 述 ,PAC 可 学 习性 很 大 程度 上 由 所 需 的 训练 样 例 数 确定 。 随 着 问题 规模 的 增长 所 
带 来 的 所 需 训 练 样 例 的 增长 称 为 该 学 习 问 题 的 样本 复杂 度 (sample complexity) , 它 是 通常 最 感 
兴趣 的 特性 。 原 因 在 于 ,在 多 数 实际 问题 中 ,最 限制 学 习 器 成 功 的 因素 是 有 限 的 可 用 训练 数 

这 里 将 样本 复杂 度 的 讨论 限定 于 一 类 非常 广泛 的 学 习 器 , 称 为 一 致 学 习 器 (consistent 
learner) 。 一 个 学 习 器 是 一 致 的 (consistent) , 当 它 只 要 在 可 能 时 都 输出 能 完美 拟 合 训练 数据 的 
假设 。 由 于 我 们 通常 更 喜欢 能 与 训练 数据 拟 合 程度 更 高 的 假设 ,因此 要 求学 习 算法 具有 一 致 
性 是 合理 的 。 注 意 ,在 前 面 章节 中 讨论 的 很 多 学 习 器 (包括 第 2 章 中 的 所 有 学 习 算 法 ) 都 是 一 
致 学 习 器 。 

是 否 能 独立 于 一 特定 的 算法 ,推导 出 任意 一 致 学 习 器 所 需 训 练 样 例 数 的 界限 呢 ? 回答 是 
肯定 的 。 为 进行 该 推导 ,需要 回顾 一 下 第 2 章 定 义 的 变型 空间 。 在 那里 变型 空间 YSnw,p 被 定 
义 为 能 正确 分 类 训练 样 例 的 所 有 假设 hE H 的 集合 : 

VSy.p = {hE HI (YW x,c(%)) ED (h(x) = e(x))| 

恋 型 空间 的 重要 意义 在 于 ,每 个 一 致 学 习 器 都 输出 一 个 属于 变型 空间 的 假设 ,而 不 论 有 怎 
样 的 实例 空间 X BRZE H 或 训练 数据 D。 原 因 很 简单 ,由 变型 空间 的 定义 , VSy, pa H 
中 所 有 的 一 致 假设 。 因 此 ,为 界定 任意 一 个 致 学 习 器 所 需 的 样 例 数量 ,只 需要 界定 为 保证 变型 
空间 中 没有 不 可 接受 假设 所 需 的 样 例 数量 。 下 面 的 定义 精确 地 描述 了 这 一 条 件 ( 见 Haussler 
1988): 


定义 :考虑 一 假设 空间 号 ,目标 概念 c, 实 例 分 布 多 以 及 。 的 一 组 训练 样 例 D。 当 VSy, p 
中 每 个 假设 h 关于 c 和 多 错误 率 小 于 。 时 ,变型 空间 被 称 为 关于 c 和 DE -详尽 (e-exhausted) 
的 。 

(Wh € VSp,p)errordh) < e 

该 定义 在 图 7-2 中 示 出 。e- 详 尽 的 变型 空间 表示 与 训练 样 例 一 致 的 所 有 假设 ( 即 那些 有 0 
训练 错误 率 的 假设 ) 的 真实 错误 率 恰 好 都 小 于 s。 当 然 , 从 学 习 器 的 角度 看 ,所 能 知道 的 只 是 
这 些 假设 能 同等 地 拟 合 训 练 数 据 , 它 们 都 有 零 训练 错误 率 。 只 有 知道 确切 的 目标 概念 的 观察 
者 才能 确定 变型 空间 是 否 为 e- 详 尽 的 。 令 人 惊讶 的 是 ,即使 不 知道 确切 的 目标 概念 或 训练 样 
例 抽 取 的 分 布 ,一 种 概率 方法 可 在 给 定数 目的 训练 样 例 之 后 界定 变型 空间 为 e- 详 尽 的 概率 。 
Haussler (1988) 以 下 面 的 定理 形式 提供 了 这 样 的 界定 方法 。 
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假设 空间 H 





变型 空间 YSw, o 为 假设 hE 的 子 集 ,其 中 的 假设 都 有 零 训练 错误 率 (在 图 中 表示 为 r = 0)。 当 然 真实 错误 率 
errorskh)( 图 中 表示 为 error ) 可 能 非 0, 即 使 该 假设 在 所 有 训练 数据 中 错误 为 0。 当 变型 空间 中 所 有 假设 六 都 
WE error h) <e 时 ,变型 空间 才 是 e- 详 尽 的 
图 7-2 使 变型 空间 详尽 化 
定理 7.1: 变 型 空间 的 se- 详尽 化 (se-exhausting the version space) 若 假 设 空间 HAR, A DY 
目标 概念 的 一 系列 ma) 个 独立 随机 抽取 的 样 例 , 那 么 对 于 任意 0<e<1, 变 型 空间 VSy p 不 是 
e -详尽 (关于 c) 的 概率 小 于 或 等 于 . 
IHI et 
证 明 : 令 hi, hh WH PRF 的 真实 错误 率 大 于 e 的 所 有 假设 。 当 且 仅 当 大 个 假设 中 
至 少 有 一 个 恰好 与 所 有 m 个 独立 随机 抽取 样 例 一 致 时 ,不 能 使 变型 空间 e -- 详尽 化 。 任 一 假设 真 
实 错误 率 大 于 e, 且 与 一 个 随机 抽取 样 例 一 致 的 可 能 性 最 多 为 (1 - e)。 因 此 ,该 假设 与 m 个 独立 
抽取 样 例 一 致 的 概率 最 多 为 (1 =- e)”。 由 于 已 知 有 上 个 假设 错误 率 大 于 e ,那么 至 少 有 一 个 与 所 有 
m 个 训练 样 例 都 不 一 致 的 概率 最 多 为 ; 
. k(i-«)” 
并 且 因 为 <1H1, 上 式 最 多 为 181(1 - e)"。 最 后 ,使 用 一 个 通用 不 等 式 : 当 0<e<1 MA- 
e)<e ,因此 : 
k(O -e)s HIO- e)” <I HI" 
定理 得 证 。 


刚才 基于 训练 样 例 的 数目 m 、 人 允许 的 错误 率 e MH 的 大 小 ,得 到 了 变型 空间 不 是 e- 详 尽 
的 概率 的 上 界 。 换 言 之 , 它 对 于 使 用 假设 空间 H 的 任意 学 习 器 界定 了 m 个 训练 样 例 未 能 将 
所 有 “ 坏 ” 的 假设 ( 即 错误 率 大 于 的 假设 ) 剔 除 出 去 的 概率 。 
可 以 用 这 一 结论 来 确定 为 了 减少 此 “未 剔除 "概率 到 一 希望 的 程度 6 所 需 的 训练 样 例 数 。 
由 : 
1Hle™< 6 (7.1) 
从 中 解 出 m ,可 得 : 


m > 二 (ni H 1+ ln(1/6)) (7.2) 


概括 地 说 , 式 (7.2) 中 的 不 等 式 提供 了 训练 样 例 数目 的 一 般 边 界 , 该 数目 的 样 例 足 以 在 所 
期 望 的 值 $ Me 程度 下 ,使 任何 一 致 学 习 器 成 功 地 学 习 到 妃 中 的 任意 目标 概念 。 训 练 样 例 的 
数目 m 足以 保证 任意 一 致 假设 是 可 能 (可 能 性 为 1 - 9) 近似 (错误 率 为 se) 正 确 的 。 注 意 , m 
随 着 1/e 线性 增长 ,并 随 178 对 数 增长 。 它 还 随 着 假设 空间 H 的 规模 对 数 增长 。 
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注意 ,上 面 的 界限 有 可 能 是 过 高 的 估计 。 例 如 ,虽然 未 能 详尽 化 变型 空间 的 概率 必须 在 区 
间 [0, 1 内 ,然而 此 定理 给 出 的 边界 随 着 1 昌 1 对 数 增长 。 对 于 足够 大 的 假设 空间 ,该 边界 很 容 
易 超 过 1。 因此, 式 (7.2) 中 的 不 等 式 给 出 的 边界 可 能 过 高 估计 了 所 需 训练 样 例 的 数量 。 此 边 
界 的 脆弱 性 主要 来 源 于 1 有 1 项 , 它 产生 于 证 明 过 程 中 在 所 有 可 能 假设 上 计算 那些 不 可 接受 的 
假设 的 概率 和 。 实 际 上 ,在 许多 情况 下 可 以 有 一 个 更 紧凑 的 边界 以 及 能 够 覆盖 无 限 大 的 假设 
空间 的 边界 ,这 是 第 7.4 节 的 主题 。 


7.3.1 不 可 知 学 习 和 不 一 致 假设 


式 (7.2) 的 重要 性 在 于 , 它 告 诉 我 们 有 多 少 训练 样 例 才 足以 保证 (以 概率 1 - 8)H 中 每 个 
有 零 训练 错误 率 的 假设 的 真实 错误 率 最 多 为 e。 遗 憾 的 是 ,如 果 H 不 包含 目标 概念 c ,那么 并 
不 总 能 找到 一 个 零 错误 率 假设 。 这 时 ,最 多 能 要 求学 习 器 输出 的 假设 在 训练 样 例 上 有 最 小 的 
错误 率 。 如 果 学 习 器 不 假定 目标 概念 可 在 H 中 表示 ,而 只 简单 地 寻找 具有 最 小 训 错 误 率 的 假 
设 ,这 样 的 学 习 嚣 称 为 不 可 知 学 习 器 ,因为 它 不 预先 认定 CCH. 

虽然 式 (7.2) 基 于 的 假定 是 学 习 器 输出 一 零 错 误 率 假设 ,在 更 一 般 的 情形 下 学 习 器 考虑 到 
了 有 非 零 训练 错误 率 的 假设 时 , 仍 能 找到 一 个 简单 的 边界 。 精 确 地 表述 如 下 , 令 D 代表 学 习 
器 可 观察 到 的 特定 训练 样 例 集 合 ,而 与 此 不 同 的 多 代表 在 整个 实例 集合 上 的 概率 分 布 。 令 
errorp( 上 ) 代 表 假设 h 的 训练 错误 率 。 确 切 地 说 ,errorp(h) 定 义 为 D PRA 误 分 类 的 训练 样 
例 所 占 比 例 , 注 意 errorp(h) 是 在 特定 训练 数据 样本 D 上 的 , 它 与 真实 错误 率 errorg (h) 不 
同 ,后 者 是 定义 在 整个 概率 分 布 DE., WES ,代表 HH 中 有 最 小 训练 错误 率 的 假设 。 多 
少 训练 样 例 才 足以 (以 较 高 的 概率 ) 保 证 其 真实 错误 率 errorg (hya) PEE F € + errorp 
(hon ) 呢 ?注意 上 一 节 讨论 的 问题 只 是 现在 这 种 情况 的 特例 ,其 中 error py (Aes ) 恰 好 为 0。 

该 问题 的 回答 (见习 题 7.3) 使 用 类 似 于 定理 7.1 的 证 明 方 法 。 这 里 有 必要 引入 一 般 的 
Hoeffding 边界 (有 时 又 称 为 附加 Chernoff 边界 )。Hoeffding 边界 刻画 的 是 某 事件 的 真实 概率 
及 其 m 个 独立 试验 中 观察 到 的 频率 之 间 的 差异 。 更 精确 地 讲 , 这 些 边界 应 用 于 m 个 不 同 的 
Bernoulli 试验 (例如 , m 次 抛掷 一 硬币 ,该 硬币 以 某 概 率 显示 为 正面 )。 这 种 情况 非常 类 似 于 
第 5 章 考虑 的 假设 错误 率 估计 问题 : 即 硬币 显示 为 正面 的 概率 对 应 到 一 个 随机 抽取 实例 被 假 
设 误 分 类 的 概率 。m 次 独立 的 硬币 抛掷 对 应 m 个 独立 抽取 的 实例 。m 次 实验 出 现 正面 的 频 
率 对 应 于 m 个 实例 中 误 分 类 的 频率 。 

Hoeffding 边界 表明 , 当 训练 错误 率 errorp HEBE m 个 随机 抽取 样 例 的 集合 D 上 测 
量 时 , 则 : 


2 
Prf errorg (h) > errorp(h) + e] g e™™ 


它 给 出 了 一 个 概率 边界 ,说 明 任意 选择 的 假设 训练 错误 率 不 能 代表 真实 情况 。 为 保证 L 
寻找 到 的 最 佳 的 假设 的 错误 率 有 以 上 的 边界 ,我们 必须 考虑 这 1 互 1 个 假设 中 任 一 个 有 较 大 错 
误 率 的 概率 : 

Pr[ (3h E H)(errorg (h) > errorp(h) +¢)] 过 | 万 1 0-2me 

如 果 将 此 概率 称 为 3, 并 且 问 多 少 个 训练 样 例 m 才 足 以 使 6 维持 在 一 渴望 得 到 的 值 内 ， 

可 得 下 式 ; 
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m> a(n | H i+ lIn(1/6)) (7.3) 


这 是 式 (7.2) 的 一 般 化 情形 ,适用 于 当 最 佳 假设 可 能 有 非 零 训练 错误 率 时 ,学 习 器 仍 能 选 
择 到 最 佳 假 设 ACH 的 情形 。 注 意 m KF H A 176 的 对 数 , 如 在 式 (7.2) 中 一 样 。 然 而 在 
这 个 受 限 较 少 的 情形 下 , m 随 1/e 的 平方 增长 ,而 不 是 1/e 的 线性 增长 。 


7.3.2 布尔 文字 的 合 取 是 PAC 可 学 习 的 


现在 我 们 有 了 一 个 训练 样 例 数目 的 边界 ,以 表示 该 数目 为 多 少时 才 足 以 可 能 近似 学 习 到 
目标 概念 。 然 后 就 可 用 它 来 确定 某 些 特定 概念 类 别 的 样本 复杂 度 和 PAC 可 学 习性 。 

考虑 目标 概念 类 C, 它 由 布尔 文字 的 合 取 表示 。 布 尔 文字 (boolean jiteral) 是 任意 的 布尔 
变量 (如 , O1d ) ,或 它 的 否定 (如 ,一 01d)。 因 此 ,布尔 文字 的 合 取 形式 可 能 为 “Old 和 一 
Tall”。C 是 否 为 可 PAC 学 习 的 呢 ? 可 以 证 明 , 回 答 是 肯定 的 。 证 明 过 程 首先 显示 任意 一 致 
学 习 器 只 需要 多 项 式 级 的 数目 的 训练 样 例 以 学 习 到 C 中 任意 <, 然 后 得 到 一 特定 算法 能 对 每 
训练 样 例 使 用 多 项 式 的 时 间 。 

考虑 任意 学 习 器 上 , 它 使 用 的 假设 空间 等 于 C。 我们 可 以 用 式 (7.2) 计 算出 足以 保证 
(以 概率 1 - 9) 输 出 一 最 大 错误 率 为 e 的 假设 所 需 的 随机 训练 样 例 数 目 是 m。 为 达到 此 目标 ， 
只 需要 确定 假设 空间 的 规模 | Ho 

若 假设 空间 HH 定义 为 n 个 布尔 文字 的 合 取 , 则 假设 空间 1 有 1 的 大 小 为 3"。 原 因 在 于 , 任 
一 给 定 的 假设 中 每 个 变量 可 有 三 种 可 能 :该 变量 作为 文字 包含 在 假设 中 ;该 变量 的 否定 作为 文 
字 包 含 在 假设 中 ;或 假设 中 不 包含 该 变量 。 由 于 有 n 个 这 样 的 变量 ,所 以 共有 3" 个 不 同 的 假 
设 。 

将 18H1=3" 代 人 到 式 (7.2) 中 ,得 到 以 下 关于 n 布尔 文字 合 取 学 习 问 题 的 样本 复杂 度 : 

m > Le nln3 + In(1/8)) (7.4) 

若 一 个 一 致 学 习 器 要 学 习 的 目标 概念 可 由 至 多 10 个 布尔 文字 来 描述 ,那么 可 有 95% W 
概率 它 将 学 习 到 一 个 错误 率 小 于 0.1 的 假设 ,而 且 所 需 的 训练 样 例 数 量 m = g (10ln3 + 
In(1/0.05)) = 140。 

注意 , m 按 文字 数量 n 和 1/e 成 线性 增长 ,并 按 1/8 对 数 增长 。 总 的 运算 量 是 多 少 呢 ? 
这 当然 依赖 于 特定 的 学 习 算法 。 然 而 ,只 要 学 习 算 法 的 每 个 训练 样 例 计 算 量 不 超过 多 项 式 级 ， 
并 且 不 超过 训练 样 例 数目 的 多 项 式 级 ,那么 整体 的 运算 也 为 多 项 式 级 。 

在 布尔 文字 的 学 习 中 ,一 个 能 够 符合 该 要 求 的 算法 已 经 在 第 2 章 介绍 了 。 这 就 是 FIND-S 
算法 , 它 增 量 地 计算 与 训练 样 例 一 致 的 最 特殊 假设 。 对 每 个 新 的 正 例 ,该 算法 计算 了 当前 假设 和 
新 样 例 间 共享 的 文字 的 交集 ,使 用 的 时 间 也 按 n 线性 增长 。 因 此 ,F INp-S 算法 可 能 近似 正确 
(PAC) 学 习 一 类 带 否 定 的 n 个 布尔 文字 的 合 取 概 念 。 

定理 7.2: 布尔 合 取 式 的 PAC 可 学 习性 ”布尔 文字 合 取 的 类 C 是 用 Fn-S 算法 (使 用 H= C) 

PAC 可 学 习 的 。 

证 明 : 式 (7.4) 显 示 了 该 概念 类 的 样本 复杂 度 是 n ò 和 1/e 的 多 项 式 级 ,而 且 独 立 于 

size(c)。 为 增 量 地 处 理 等 个 训练 样 例 ,F mo-S 算法 要 求 的 运算 量 根据 n 线性 增长 ,并 独立 于 178, 

1/e 和 size(c)。 因 此 ,这 一 概念 类 别 是 FInp-S 算法 PAC 可 学 习 的 。 
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7.3.3 其 他 概念 类 别 的 PAC 可 学 习性 


如 前 所 示 ,在 学 习 给 定 类 C 中 的 目标 概念 时 , 式 (7.2) 为 界定 其 样本 复杂 度 提供 了 一 般 的 基 
础 。 上 例 将 其 应 用 到 布尔 文字 的 合 取 这 样 的 类 别 中 。 它 还 可 用 于 证 明 许多 其 他 概念 有 多 项 式 级 
的 样本 复杂 度 ( 例 如 ,见习 题 7.2)。 

1. 无 偏 学 习 器 

并 非 所 有 概念 类 别 都 有 如 式 (7.2) 那 样 的 多 项 式 级 样本 复杂 度 边界 。 例 如 ,考虑 一 无 偏 概念 
类 C, 它 包含 与 夸 相 关 的 所 有 可 教授 概念 。 该 集合 C 对 应 于 X HERE X 的 所 有 子 集 的 集 
合 , 共 包含 1 C1=2'*! 个 概念 。 若 XX 中 的 实例 定义 为 x 个 布尔 值 特征 ,将 有 1X1= 2" 个 不 同 实 


例 ,因此 有 1C1=2'*! = 22 个 不 同 概念 。 当 然 为 学 习 这 样 的 无 偏 概念 类 ,学 习 器 本 身 也 必须 使 用 


一 无 偏 的 假设 空间 H = Co HHI = 2 代入 到 式 (7.2) 中 ,得 到 为 学 习 对 应 于 X 的 无 偏 概念 类 
的 样本 复杂 度 。 


m> Larm + In(1/8)) (7.5) 


这 样 , 该 无 偏 的 目标 概念 类 在 PAC 模型 下 有 指数 级 的 样本 复杂 度 。 虽 然 式 (7.2) 和 式 (7.5) 
不 是 紧凑 的 上 界 , 实 际 上 可 证 明 该 无 偏 概念 类 的 样本 复杂 度 确实 为 n 的 指数 级 。 

2. KA DNF 和 K-CNF 概念 

存在 这 种 可 能 , 即 某 概念 类 有 多 项 式 级 的 样本 复杂 度 , 但 不 能 够 在 多 项 式 时 间 内 被 学 习 到 。 
一 个 有 趣 的 例子 是 概念 类 C 为 大 项 析 取 范式 (项 DNF) 的 形式 。 大 项 DNF 表达 式 形式 为 TV 
Ta V eee V Ti, 其 中 每 一 7 项 为 n 个 布尔 属性 和 它们 的 否定 的 合 取 。 假 定 H = C ,很 容易 证 明 
| 81 最 多 为 3*( 因 为 有 上 个 项 ,每 项 可 有 3" 个 可 能 值 )。 注 意 3 过 高 估计 了 1H1, 因 为 它 重复 
计算 了 7;= Tj URT, 比 7 更 一 般 的 情形 。 此 上 界 仍然 可 用 于 获得 样本 复杂 度 的 上 界 ,将 其 
代入 到 式 (7.2) 中 ; 


m > 二 (nkln3 + ln(1/6)) (7.6) 


CRR k M DNF 的 样本 复杂 度 为 /6、1/e 、n 和 大 的 多 项 式 级 。 虽 然 样本 复杂 度 是 多 项 
式 级 的 ,计算 复杂 度 却 不 是 多 项 式 级 的 ,因为 该 算法 等 效 于 其 他 已 知 的 不 能 在 多 项 式 时 间 内 解 
决 的 问题 (除非 RP = NP). Ast, BR kW DNF 有 多 项 式 级 的 样本 复杂 度 , 它 对 于 使 用 H = 
C 的 学 习 器 没有 多 项 式 级 的 计算 复杂 度 。 

关于 项 DNF 的 令 人 吃惊 的 事实 在 于 ,虽然 它 不 是 PAC 可 学 习 的 , 却 存在 一 个 更 大 的 概 
念 类 是 PAC 可 学 习 的 。 这 个 更 大 的 概念 类 有 每 样 例 的 多 项 式 级 时 间 复 杂 度 ,同时 有 多 项 式 级 
的 样本 复杂 度 。 这 一 更 大 的 类 为 k-CNF 表达 式 : 任 意 长 度 的 合 取 式 TA TA AT% 
HEN T; 为 最 多 上 个 布尔 变量 的 析 取 。 很 容易 证 明 k-CNF 包含 了 项 DNF, 因 为 任意 项 
DNF 可 以 很 容易 地 重 写 为 -CNF 表达 式 (反之 却 不 然 )。 虽 然 k-CNF E k W DNF 表达 力 更 
强 ,但 它 有 多 项 式 级 样本 复杂 度 和 多 项 式 级 时 间 复 杂 度 。 因 此 ,概念 类 上 项 DNF 是 使 用 H = 
ke CNF 的 一 个 有 效 算 法 可 PAC 学 习 的 。 见 Kearns & Vazirani(1994) 中 更 详细 的 讨论 。 
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7.4 无 限 假设 空间 的 样本 复杂 度 


在 上 一 节 中 我 们 证 明了 PAC 学 习 的 样本 复杂 度 随 假设 空间 对 数 增长 。 虽 然 式 (7.2) 是 一 
个 很 有 用 的 不 等 式 , 但 以 1H1 项 来 刻画 样本 复杂 度 有 两 个 缺点 。 首 先 , 它 可 能 导致 非常 弱 的 边 
界 ( 回 忆 一 下 对 于 大 的 1#1 在 上 的 边界 可 能 超出 1 很 多 )。 其 次 ,对 于 无限 假设 空间 的 情形 ， 
式 (7.2) 根 本 无 法 应 用 。 

这 里 我 们 考虑 H 的 复杂 度 的 另 一 种 度量 , 称 为 H 的 Vapnik-Chervonenkis 维度 (简称 VC 
维 或 VC( 昌 H))。 可 以 看 到 ,使 用 VC( 晶 ) 代 替 1H1 也 可 以 得 到 样本 复杂 度 的 边界 。 在 许多 情 
形 下 ,基于 YC( 九 ) 的 样本 复杂 度 会 比 式 (7.2) 得 到 的 更 紧凑 。 另 外 ,这 些 边 界 可 以 刻画 许多 
无 限 假设 空间 的 样本 复杂 度 ,而 且 可 证 明 相 当 紧 次。 


7.4.1 打 散 一 个 实例 集合 


VC 维 衡量 假设 空间 复杂 度 的 方法 不 是 用 不 同 假设 的 数量 | 互 1 ,而 是 用 X 中 能 被 妃 彻底 
区 分 的 不 同 实例 的 数量 。 

为 精确 地 描述 这 一 点 ,首先 定义 对 一 个 实例 集合 的 打 散 (shattering) 操 作 。 考 虑 实例 的 某 
FE SCX。 例 如 ,图 7-3 显 示 了 X 中 一 个 包含 3 个 实例 的 子 集 。HH 中 的 每 个 导致 $ 中 的 
某 个 划分 (dichotomy), 即 h 将 5 分 割 为 两 个 子 集 1xE SI1h(x)=1i 以 及 [|xE€ SIh(x)=0|。 
给 定 某 实例 集合 S, 有 2'5' 种 可 能 的 划分 ,虽然 其 中 的 一 些 不 能 由 OW 来 表达 。 当 5 的 每 个 可 
能 的 划分 可 由 H 中 的 某 假设 来 表达 时 ,我 们 称 H 打 散 5。 

定义 :一 实例 集 5 被 假设 空间 总 打 散 (shatter) , 当 且 仅 当 对 S 的 每 个 划分 ,存在 H 中 的 
某 假设 与 此 划分 一 致 。 

图 7-3 显示 了 一 包含 3 个 实例 的 集合 S 被 假设 空间 划分 的 结果 。 注 意 这 3 个 实例 的 2 
种 划分 中 每 一 个 都 可 由 某 假设 覆盖 。 

注意 ,如 果 一 实例 集合 没有 被 假设 空间 打 散 ,那么 必然 存在 某 概念 (划分 ) 可 被 定义 在 实例 
集 之 上 ,但 不 能 由 假设 空间 表示 。 因 此 , H 的 这 种 打 散 实例 集合 的 能 力 是 其 表示 这 些 实例 上 
定义 的 目标 概念 的 能 力 的 度量 。 





对 每 种 可 能 的 实例 划分 ,存在 一 个 对 应 的 假设 
7-3 被 8 个 假设 拆散 的 包含 3 实例 的 集合 
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7.4.2 Vapnik-Chervonenkis 维度 


打 散 一 实例 集合 的 能 力 与 假设 空间 的 归纳 偏 置 紧密 相关 。 回 忆 第 2 章 中 一 个 无 偏 的 假设 
空间 是 能 够 表示 定义 在 实例 空间 X 上 每 个 可 能 概念 (划分 ) 的 假设 空间 。 简 短 地 讲 , 一 个 无 偏 
假设 空间 能 够 打 散 实例 空间 。 那 么 如 果 HH 不 能 打 散 X, 但 它 可 打 散 X 的 某 个 大 的 子 集 $ 会 
怎样 ? 直觉 上 可 以 说 被 打 散 的 的 子 集 越 大 , 的 表示 能 力 越 强 。H 的 VC 维 正 是 这 样 一 种 
度量 标准 。 


定义 :定义 在 实例 空间 上 的 假设 空间 H BY Vapnik-Chervonenkis 维 , 或 VC( H), ÆA H 
打 散 的 X 的 最 大 有 限 子 集 的 大 小 。 如 果 的 任意 有 限 大 的 子 集 可 被 万 打 散 , 则 VC( H)= %。 


注意 ,对 于 任意 有 限 的 H,VC(H) < logz 1 H1。 为 证 明 这 一 点 ,假定 VC(H)=d, BA 
五 需要 24 个 不 同 假设 来 打 散 d 个 实例 。 因 此 2s<1H81, 所 以 d= VC(H) slogl Hio 

举例 

为 了 获得 YC( 互 ) 的 直观 感 党 ,考虑 下 面 一 些 假设 空间 的 例子 。 首 先 , 假 定 实例 空间 X 为 
实数 集合 X= (例如 ,描述 人 的 身高 height), WA H 为 实数 轴 上 的 区 间 的 集合 。 换 言 之 , 妃 
中 的 假设 形式 为 a < x < ,其 中 ab 为 任意 实数 。 它 的 VC HEED? 为 回答 这 一 问题 , 必 
须 找到 能 被 HIRO X 的 最 大 子 集 。 考 虑 一 特定 的 子 集 ,包含 两 个 不 同 实例 ,如 S = 13. 1， 
5.7|。 这 个 S RER H HRUG? 回答 是 肯定 的 。 例 如 ,以 下 四 个 假设 (1<x<2),(1<x<4)， 
(4<x<7) 和 (1<x<7) 就 可 做 到 这 一 点 。 它 们 表示 了 S 上 的 四 种 划分 , 即 不 包含 任何 实例 ， 
只 包含 实例 中 的 一 个 以 及 两 个 实例 。 因 为 我 们 找到 了 一 个 大 小 为 2 的 集合 , 它 可 被 H 打 散 ， 
所 以 H K VC 维 至 少 为 2。 大 小 为 3 的 集合 是 否 可 被 打 散 ? 考虑 一 集合 S$ = | xo，x1，x2| 包 
含 3 个 任意 实例 。 为 了 不 失 一 般 性 ,可 假定 xo < xi < x，。 显 然 , 此 集合 不 能 被 打 散 ,因为 包含 
xo 和 x; 但 不 包含 xi 的 划分 将 不 能 由 单个 的 闭 区 间 来 表示 。 因 此 ,5S 中 没有 大 小 为 3 的 子 集 
可 被 打 散 ,因此 VC(H) =2。 注 意 ,这 里 H 是 无 限 的 ,但 VC( 五 ) 有 限 。 

下 面 考虑 的 实例 集合 $ 对 应 x y 平面 上 的 点 ( 见 图 7-4)。 令 H 为 此 平面 内 所 有 线性 决 
策 面 的 集合 。 换 言 之 , H 对 应 有 双 输 入 的 单个 感知 器 单元 的 假设 空间 ( 见 第 4 章 中 对 感知 器 
Witt). HW VC 维 是 多 少 ? 很 容易 可 看 出 该 平面 内 任意 两 个 不 同 点 可 被 WTR RE 
为 我 们 可 以 找到 4 个 线性 表面 ,它们 包含 没有 点 、 两 点 中 的 任 一 点 或 两 点 。3 个 点 的 集合 会 怎 
ARE? 只 要 3 个 点 不 共 线 ,就 可 以 找到 2? 个 线性 表面 来 打 散 它们 。 当 然 3 个 共 线 的 点 无 法 被 
打 散 (与 前 例 中 实 轴 上 3 个 点 无 法 被 打 散 同样 的 理由 )。 在 此 VC 维 是 多 少 ? 2 还 是 3? 至 少 
MBE 3. VC 维 的 定义 表示 ,如 果 能 找到 任意 一 个 大 小 为 4 的 实例 集合 , 它 可 被 打 散 ,那么 
VC(H) ed. Wie VC(H) < d ,必须 证 明 大 小 为 d 的 集合 都 不 能 被 打 散 。 在 此 例 中 ,大 小 
为 4 的 集合 都 不 能 被 打 散 ,因此 VCH) = 3。 更 一 般 地 ,可 证 明 , 在 r 维 空间 中 (如 ,有 r 个 输 
和 的 感知 器 ) ,线性 决策 面 的 VC 维 为 r+ 1。 

最 后 一 个 例子 ,假定 了 上 每 个 实例 由 恰好 3 个 布尔 文字 的 合 取 表示 ,而 且 假 定 H 中 每 个 
假设 由 至 多 3 个 布尔 文字 描述 。YC( 互 ) 是 多 少 ? 可 证 明 这 个 值 至 少 为 3。 将 每 个 实例 表示 
为 一 3 位 字 串 ,对 应 每 个 实例 的 三 个 文字 Ll, 和 1!3。 考 虑 下 面 3 个 实例 集合 : 

instance,;; 100 


instance; 010 
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instance;: 001 


a) b) 


a) 一 个 3 点 集合 可 被 线性 决策 面 拆 散 b) 一 个 3 点 集合 不 能 被 拆散 
图 7-4 在 x,y 平 面 中 线性 决策 面 的 VC 维 为 3 ， 


这 三 个 实例 的 集合 可 被 五 打 散 ,因为 可 对 如 下 任意 所 希望 的 划分 建立 一 假设 :如 果 该 划 
分 要 排除 instancei ,就 将 文字 一 六 加 入 到 假设 中 。 例 如 ,要 包含 instancez, 且 排除 instance, 
和 instance;. 那么 可 使 用 假设 一 LAS 六。 此 讨论 可 很 容易 地 扩展 到 特征 数 为 n 的 情况 。 
En 个 布尔 文字 合 取 的 VC 维 至 少 为 n。 实 际 上 也 确实 为 ”, 实 际 的 证 明 比 较 困 难 , 因为 
它 需要 说 明 n+ 1 个 实例 的 集合 不 可 能 被 打 散 。 


7.4.3 样本 复杂 度 和 VC 维 


前 面 考虑 了 “有 和 多少 随 机 抽取 训练 样 例 才 足以 可 能 近似 正确 (PAC) 地 学 习 到 C 中 任意 目 
标 概念 ”这 个 问题 ( 即 需要 多 少 样 例 足以 以 1 - 6 的 概率 e - 详尽 变型 空间 ?)。 使 用 VCH 
AH 复杂 度 的 度量 ,就 有 可 能 推导 出 该 问题 的 另 一 种 解答 ,类 似 于 前 面 式 (7.2) 中 的 边界 。 新 
导出 的 边界 ( 见 Blumer et al. 1989) 为 ; 


m > +(4log:(2/8) + 8 VC( H )log(13/e)) (7.7) 


正如 式 (7.2) 中 的 边界 一 样 ,所 需 训 练 样 例 的 数目 m 以 18 的 对 数 增长 。 但 该 边界 现在 
以 1/e 的 对 数 乘 以 线性 增长 ,而 不 只 是 线性 。 特 别 要 指出 ,前 面 边 界 中 的 In H 1 项 被 蔡 换 为 另 
一 种 假设 空间 复杂 度 的 度量 , 即 VC) itl VC(H)<logz1H1)。 

对 应 于 任意 希望 的 e 和 9, 式 (7.7) 对 于 足以 可 能 近似 学 习 到 C 中 任意 目标 概念 所 需 的 训 
练 样 例 给 出 了 一 个 上 界 。 还 可 能 得 到 一 个 下 界 ,正如 下 面 定 理 所 概 插 的 ( 见 Ehrenfeucht et al. 
1989), 

定理 7.3; 样本 复杂 度 下 界 ” 考虑 任意 概念 类 C,H YC(C)>2, 任 意 学 习 器 工 , 以 及 任意 0< 
e < 1/8,0<5$<1/100。 存 在 一 个 分 布 多 以 及 C 中 一 个 目标 概念 , 当 L 观察 到 的 样 例 数 目 小 于 下 
式 时 ; 
max[ Liog(1/8), ZEC] 


了 将 以 至 少 $ 的 概率 输出 一 假设 ,使 errora h) > e。 


该 定理 说 明 , 若 训练 样 例 的 数目 太 少 ,那么 没有 学 习 器 能 够 以 PAC 模型 学 习 到 任意 非 平 
凡 的 C 中 每 个 目标 概念 。 因 此 ,该 定理 提供 了 成 功 的 学 习 所 必要 的 训练 样 例 的 数目 的 下 界 ， 
它 是 对 于 前 面 上 界 给 出 的 保证 充足 的 数量 的 上 界 的 一 个 补充 。 注 意 ,该 下 界 是 由 概念 类 C 的 
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复杂 度 确定 的 ,而 前 面 的 上 界 由 H 确定 ,为 什么 ?3 
该 下 界 说 明 式 (7.7) 给 出 的 上 界 相当 紧凑 。 因 为 两 个 边界 都 是 1/8 的 对 数 和 VC( A) A 
线性 数量 级 。 在 这 两 个 边界 中 惟一 的 区 别 是 上 界 中 多 出 的 log(1《e ) 依 赖 性 。 


7.4.4 神经 网 络 的 VC 维 


对 于 第 4 章 讨论 的 人 工 神 经 网 络 ,我 们 有 兴趣 考虑 怎样 计算 一 个 互联 单元 网 络 的 VC E, 
如 由 反 向 传播 过 程 训 练 的 前 馈 网 络 。 本 节 给 出 了 一 般 性 的 结论 ,以 计算 分 层 无 环 网 络 的 VC 
维 。 这 一 VC 维 可 被 用 于 界定 训练 样 例 的 数量 ,该 数 达到 多 大 才 足 以 按照 希望 的 s 和 5 值 近 
似 可 能 正确 地 学 习 到 一 个 前 馈 网 络 。 本 节 在 第 一 次 阅读 时 可 忽略 掉 ,而 不 失 连 续 性 。 

考虑 一 个 由 单元 组 成 的 网 络 6 , 它 形 成 一 个 分 层 有 向 无 环 图 。 有 向 无 环 图 是 弧 带 有 方向 
(如 ,单元 有 输入 和 输出 ) 但 不 存在 有 向 环 的 图 。 分 层 图 中 的 节点 可 被 划分 为 层 ,这 样 所 有 第 / 
层 出 来 的 有 向 边 进 入 到 第 1 +1 层 节点 。 第 4 章 介绍 的 分 层 前 馈 网 络 就 是 这 样 的 分 层 有 向 无 
环 图 的 例子 。 

可 以 看 出 ,这样 的 网 络 的 VC 维 的 界定 可 以 基于 其 图 的 结构 和 构造 该 图 的 基本 单元 的 VC 
维 。 为 形象 化 地 描述 ,首先 定义 一 些 术 语 。 令 n 为 网 络 G 的 输入 数目 ,并 且 假 定 只 有 1 个 输 
出 结 点 。 令 G 的 每 个 内 部 单元 Ni( 即 每 个 非 输入 节点 ) 有 最 多 r 个 输入 ,并 实现 一 布尔 函数 
co: B10, 1B R— BRAK C。 例 如 , 若 内 部 节点 为 感知 器 ,那么 C 为 定义 在 . 史 " 上 的 线性 
(A {El pH KK 

现在 可 定义 C 的 C- 合 成 ( C-composition) 为 ,网 络 G 能 实现 的 所 有 函数 的 类 ,其 中 6 中 
的 独立 单元 都 取 类 C 中 的 函数 。 简 单 地 说 , C 的 C- 合 成 是 可 由 网 络 G 表示 的 假设 空间 。 

下 面 的 定理 界定 了 CH C- 合 成 的 基于 C 的 VC 维和 GC 的 结构 的 VC 维 。 

定理 7.4: 分 展 有 向 无 环 网 络 的 VCH (W Kearns & Vazirani 1994) 令 G 为 一 分 层 有 向 无 环 

图 ,有 nn 个 输入 节点 和 s 宕 2 个 内 部 节点 ,每 个 可 有 至 少 r 个 输入 。 令 C 为 VC 维 为 AHA’ 上 的 

概念 类 ,对 应 于 可 由 每 个 内 部 节点 s 描述 的 函数 集合 。 令 Cc 为 C 的 6 合成 ,对 应 于 可 由 6 表示 

的 函数 集合 。 那 么 VC( Co) <2dslog(es) ,其 中 e 为 自然 对 数 底 。 


TER, 这 一 网 络 G 的 VC 维 边界 随 单个 单元 的 VC 维 d 线性 增长 ,并 随 s( 即 网 络 中 国 值 
单元 的 数目 ) 的 对 数 乘 线性 增长 。 

假定 要 考虑 的 分 层 有 向 无 环 网 络 中 单个 节点 都 是 感知 器 。 回 忆 第 4 章 中 提 到 的 , r 输入 
BABE ARERR RRA A 上 的 布尔 函数 。 如 前 面 指出 的 那样 ,在 .用 上 的 线性 决策 面 
的 VC 维 为 r+ 1。 因 此 ,单独 的 r 输入 感知 器 VC 维 为 r+ 1。 可 使 用 这 一 结果 及 上 面 的 定理 
来 计算 包含 s 个 + 输入 感知 器 的 分 层 无 环 网 络 的 VC 维 边界 ,如 下 : 

VC( cera’) =< 2(r + 1)slog(es) 

现在 可 以 计算 足够 的 训练 样 例 数目 m 的 边界 ,以 确保 在 误差 s 范围 内 (以 至 少 1- 6 的 概 

率 ) 学 习 到 来 自 Cr 的 目标 概念 。 将 上 面 网 络 VC 维 的 表达 式 代 人 到 式 (7.7), 可 有 : 


”如 果 我 们 在 下 界 中 用 HRC H CC 时 会 得 到 m 的 一 个 更 紧凑 的 界限 。 
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m > 二 (4log(2/8) + 8 VC( H)log( 13/e)) 


> 二 (4log(2/8) + 16(r + 1) slog( es )log(13/e)) (7.8) 


正如 感知 器 网 络 例子 所 示 , 上 面 的 定理 的 作用 在 于 , 它 提供 了 一 个 一 般 性 方法 ,基于 网 络 
结构 和 单个 单元 的 VC 维 界定 分 层 无 环 单元 网 络 的 VC 维 。 不 过 ,上 面 的 结果 不 能 直接 应 用 
于 反 向 传播 的 网 络 ,原因 有 两 个 。 首 先 ,此 结果 应 用 于 感知 器 网 络 , 而 不 是 sigmoid 单元 网 络 ， 
后 者 是 反 向 传播 算法 应 用 的 范围 。 然 而 ,注意 到 sigmoid 单元 的 VC 维 至 少 会 与 感知 器 单元 的 
VC 维 一 样 大 ,因为 通过 使 用 足够 的 权 值 ,sigmoid 单元 可 以 任意 精度 通 近 感知 器 。 因 此 ,上 面 
的 m 边界 至 少 会 与 sigmoid 单元 组 成 的 分 层 无 环 网 络 中 的 一 样 大 。 上 述 结论 的 第 二 个 不 足 在 
于 , 它 不 能 处 理 反 向 传播 中 的 训练 过 程 , 即 开始 以 约 等 于 0 的 权 值 ,然后 反复 地 更 新 该 权 值 , 直 
到 找到 一 可 接受 的 假设 。 因 此 , 反 向 传播 带 有 交叉 验证 终止 判 据 , 它 产生 一 个 更 偏好 小 权 值 网 
络 的 归纳 偏 置 。 这 一 归纳 偏 置 ,降低 了 有 效 的 VC 维 ,是 上 面 的 分 析 所 不 能 涵盖 的 。 


7.5 学 习 的 出 错 界限 模型 


除了 PAC 学 习 模型 以 外 ,计算 学 习 理 论 还 考虑 了 多 种 不 同 的 问题 框架 。 已 经 研究 的 学 习 
问题 框架 中 不 同 之 处 在 于 训练 样 例 的 生成 方式 (被 动 观察 学 习 样 例 还 是 主动 提出 查询 ) ,数据 
中 的 噪声 (有 噪声 数据 还 是 无 差错 数据 ) ,成 功 学 习 的 定义 (是 必须 学 到 正确 的 目标 概念 ,还 是 
有 一 定 的 可 能 性 和 近似 性 ) ,学 习 器 所 做 的 假定 (实例 的 分 布 情况 以 及 是 否 CC 召 ) 和 评估 学 习 
”器 的 度量 标准 (训练 样 例 数量 、 出 错 数量 .计算 时 间 )。 

本 节 将 考虑 机 器 学 习 的 出 错 界 限 模 型 ,其 中 学 习 器 的 评估 标准 是 它 在 收 倒 到 正确 假设 前 
总 的 出 错 数 。 同 在 PAC 问题 框架 中 一 样 , 这 里 假定 学 习 器 接收 到 一 系列 的 训练 样 例 。 然 而 ， 
这 里 我 们 希望 每 接受 到 一 个 样 例 x ,学 习 器 必须 先 预测 目标 值 (x ) ,之 后 再 由 施 教 者 给 出 正 
确 的 目标 值 。 这 里 考虑 的 问题 是 :“ 在 学 习 器 学 习 到 目标 概念 前 , 它 的 预测 会 有 多 少 次 出 错 ”。 
这 一 问题 在 实际 环境 下 十 分 重要 ,其 中 学 习 过 程 与 系统 运行 同时 进行 ,而 不 是 经 过 一 段 离线 的 
训练 过 程 。 例 如 ,如 果 系 统 要 学 着 预测 哪些 信用 卡 购物 可 被 允许 ,哪些 有 菊 诈 行为 ,必须 基于 
在 使 用 中 搜集 的 数据 ,然后 我 们 就 要 在 其 收敛 到 正确 目标 函数 前 使 其 出 错 的 数目 最 小 化 。 这 
里 出 错 的 总 数 可 能 比 训练 样 例 的 总 数 更 重要 。 

这 种 出 错 界限 学 习 问题 可 以 在 许多 特殊 的 背景 中 进行 研究 。 例 如 ,我 们 可 以 计算 学 习 器 
在 PAC 学 习 到 目标 概念 前 出 错 的 次 数 。 在 下 面 的 例子 中 ,我 们 只 考虑 在 学 习 器 确切 学 到 目标 
概念 前 出 错 的 次 数 。 其 中 ,确切 学 到 目标 概念 意味 着 (VY x)h(x) = c(z)。 


7.5.1 FIND-S 算法 的 出 错 界限 


再 一 次 考虑 假设 空间 HH 包含 至 多 n 个 布尔 文字 (4…1 或 它们 的 否定 ) 的 合 取 的 情况 ( 例 
W: Rich A 一 Handsome)。 回 忆 第 2 章 中 的 Finp-5 算法 , 它 增 量 地 计算 与 训练 样 例 一 致 的 极 
大 特殊 假设 。 对 假设 空间 H H Finn-S 算法 的 一 个 简单 实现 如 下 : 

FIND-S: 

e 将 h 初始 化 为 最 特殊 假设 1 A 一 LA LA “m lz... LA “m la 

® 对 每 个 正 例 x 
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OKA 中 移 去 任何 不 满足 x 的 文字 

o 输出 假设 h 

WR CC HH 且 训 练 数据 无 噪声 ,FIiNp-S 极限 时 收敛 到 一 个 无 差错 的 假设 。FIND-S 开始 于 
最 特殊 的 假设 ( 它 将 每 个 实例 分 为 反例 ) ,然后 增 量 地 泛 化 该 假设 ,以 覆盖 观察 到 的 正 例 。 对 于 
这 里 使 用 的 假设 表示 , 泛 化 过 程 由 删除 不 被 满足 的 文字 操作 构成 。 

是 否 可 以 计算 出 一 个 边界 ,以 描述 FIND-S 在 确切 学 到 目标 概念 前 全 部 的 出 错 次 数 ? E 
答 是 肯定 的 。 为 证 明之 ,首先 注意 :如 果 cE 也, 那么 FIND-S 永远 不 会 将 一 反例 错误 地 划分 为 
正 例 。 原 因为 当前 假设 h 总 比 目 标 概念 c 更 特殊 。 我 们 只 需要 计算 将 正 例 划分 为 反例 的 出 错 
次 数 。 在 FIND-S 确切 得 到 c 前 ,这 样 的 出 错 有 多 少 次 呢 ? 考虑 FiNp-S 算法 遇 到 的 第 一 个 正 
例 。 学 习 器 当然 会 在 分 类 这 个 样 例 时 出 错 , 因为 它 的 初始 假设 将 全 部 实例 都 分 为 反例 。 然 而 ， 
结果 将 是 初始 假设 中 2n 个 项 中 半数 将 被 删 去 ,只 留 下 n 个 项 。 对 每 个 后 续 的 被 当前 假设 误 
分 类 的 正 例 ,剩余 的 n 个 项 中 至 少 有 一 项 必须 从 假设 中 删 去 。 因 此 ,出 错 的 总 数 至 多 为 n+ 
1。 该 出 错 次 数 是 最 坏 情 况 下 所 需 的 次 数 ,对 应 于 学 习 最 一 般 的 目标 概念 :(Y x)c(x)=1, 并 
且 实 例 序列 也 是 最 坏 情况 下 , 即 每 次 出 错 只 能 移 去 一 个 文字 。 


7.5.2 Havna 算法 的 出 错 界限 


第 二 个 例子 考虑 一 个 算法 , 它 的 执行 过 程 是 维护 一 个 变型 空间 并 在 遇 到 新 样 例 时 精 化 该 
变型 空间 。 第 2 意 的 候选 消除 算法 和 列表 后 消除 算法 都 是 这 样 的 算法 。 本 节 我 们 推导 这 样 的 
学 习 器 针对 任意 有 限 假设 空间 H 最 坏 情 况 下 出 错 数 量 的 边界 ,并 再 次 假定 目标 概念 能 被 确切 
学 习 到 。 

为 分 析 学 习 过 程 中 出 错 的 数量 ,必须 首先 精确 指定 学 习 器 对 每 个 新 实例 x 会 作出 怎样 的 
预测 。 假 定 该 预测 是 从 当前 变型 空间 的 所 有 假设 中 取 多 数 票 得 来 的 。 如 果 变 型 空间 中 多 数 假 
设 将 新 实例 划分 为 正 例 ,那么 该 预测 由 学 习 器 输出 ,否则 输出 反例 的 预测 。 

这 种 将 变型 空间 学 习 和 用 多 数 票 来 进行 后 续 预 测 结合 起 来 的 算法 通常 被 称 为 H ALVING 
算法 。 对 任意 有 限 五 ,H ALVING 算 法 在 确切 学 习 到 目标 概念 前 出 错 的 最 大 次 数 是 多 少 ? 注意 ， 
“确切 ”地 学 习 到 目标 概念 等 于 说 要 到 达 一 个 状态 ,变型 空间 中 只 包含 一 个 假设 (如 往常 那样 假 
定 目 标 概 念 c 在 HH 中 )。 

为 推导 该 出 错 界限 ,注意 H ALviNc 算 法 只 在 当前 变型 空间 的 多 数 假设 不 能 正确 分 类 新 样 
例 时 出 错 。 在 这 种 情况 下 ,一 旦 正确 分 类 结果 提供 给 学 习 器 后 ,变型 空间 至 少 可 减 小 到 它 的 一 
半 大 小 ( 即 只 有 投 少 数 票 的 假设 被 保留 )。 由 于 每 次 出 错 将 变型 空间 至 少 减 小 一 半 , 而 且 初 始 
变型 空间 包含 1H 1 个 成 员 , 所 以 变型 空间 到 只 包含 一 个 成 员 前 出 错 次 数 最 大 为 logp1 Hlo X 
际 上 可 证 明 该 边界 为 Llogz1 1]。 例 如 ,考虑 1H1=7 的 情况 。 第 一 个 出 错 可 将 1H1 减 小 到 最 
多 为 3, 第 二 次 出 错 就 可 将 其 减 小 到 1。 

注意 Llogz141 为 最 坏 情 况 下 的 边界 ,并 且 有 可 能 H ALviNc 算 法 不 出 任何 差错 就 确切 学 习 
到 目标 概念 。 因 为 即使 多 数 票 结果 是 正确 的 ,算法 仍 将 移 去 那些 不 正确 的 .少数 票 假设 。 若 此 
情况 在 整个 训练 过 程 中 发 生 ,那么 变型 空间 可 在 不 出 差错 的 情况 下 减 小 到 单个 成 员 。 

对 HALvING 算 法 的 一 个 有 趣 的 扩展 是 允许 假设 以 不 同 的 权 值 进行 投票 。 第 6 MH TV 
叶 斯 最 优 分 类 器 , 它 就 在 假设 中 进行 加 权 投票 。 在 贝 叶 斯 最 优 分 类 器 中 ,为 每 个 假设 赋予 的 权 
值 为 其 描述 目标 概念 的 估计 后 验 概 率 ( 给 定 训练 数据 下 )。 本 节 的 后 面 将 描述 另 一 个 基于 加 权 





BIE 计算 学 习 理 论 159 





投票 的 算法 , 称 为 加 权 多 数 算法 。 
7.5.3 最 优 出 错 界限 


上 面 的 分 析 给 出 了 两 个 特定 算法 :FiND-S 和 候选 消除 算法 在 最 坏 情况 下 的 出 错 界限 。 一 
个 很 有 趣 的 问题 是 :对 于 任意 概念 类 C ,假定 H= C, 最 优 的 出 错 边 界 是 什么 ?最 优 出 错 边 界 
是 指 在 所 有 可 能 的 学 习 算法 中 ,最 坏 情况 下 出 错 边界 中 最 小 的 那 一 个 。 更 精确 地 说 ,对 任意 学 
习 算 法 4 和 任意 目标 概念 c, 令 M4(c) 代 表 4 为 了 确切 学 到 ,在 所 有 可 能 训练 样 例 序列 中 
出 错 的 最 大 值 。 现在 对 于 任意 非 空 概念 类 C, 令 Mi (C)= max,¢ cM, (e)o 注意 上 面 我 们 证 
明了 当 CHES n 个 布尔 文字 描述 的 概念 类 时 , Mr _-s(C) =m+1。 同 时 ,对 任意 概念 类 
C ,我 们 有 Maanig(C)<logz(1C1)。 

下 面 定义 概念 类 C 的 最 优 出 错 边界 。 


定义 : 令 C 为 任意 非 空 概念 类 。C 的 最 优 出 错 界限 (optimal mistake bound) 定 义 为 Opi(C) 是 
所 有 可 能 学 习 算法 4 中 M4 (C) 的 最 小 值 。 


Opt(C) = cae M,(C) 


用 非 形式 的 语言 来 讲 , 该 定义 表明 Opt ( CIE C 中 最 难 的 那个 目标 概念 使 用 最 不 利 的 训 
练 样 例 序列 用 最 好 的 算法 时 的 出 错 次 数 。Littlestone( 1987) 证 明 对 任意 概念 类 C ,在 C 的 最 
优 出 错 边界 .HALVING 算法 边界 和 C 的 VC 维 之 间 存 在 一 个 有 趣 的 联系 ,如 下 : 


VC(C) < Opt(C) < Muawing(C) < log(1 C1) 


更 进一步 ,存在 这 样 的 概念 类 使 上 面 的 4 个 量 恰好 相等 。 这 样 的 概念 类 其 中 之 一 是 任意 
有 限 集合 的 寡 集 Cp。 在 此 情况 下 , VC Cp) = 1X1 = logz(1Cp1), 因 此 所 有 这 4 个 量 相等 。 
Littlestone(1987) 提 供 了 其 他 概念 类 的 例子 ,其 中 VC(C) 严 格 小 于 Opt(C), Opt C)™ 
于 Mawing( C)o 


7.5.4 加权 多 数 算法 


本 节 讨 论 HALVING 算 法 的 更 一 般 的 形式 , 称 为 加 权 和 多数 (WEIGHTED-MAJoRITY) 算 法 。 加 
权 多 数 算法 通过 在 一 预测 算法 池 中 进行 加 权 投 票 来 作出 预测 ,并 通过 改变 每 个 预测 算法 的 权 
来 学 习 。 这 些 预 测算 法 可 被 看 作 是 H 中 的 不 同 假设 ,或 被 看 作 本 身 随时 间 变 化 的 不 同学 习 算 
法 。 对 于 这 些 预 测算 法 ,所 需要 的 只 是 在 给 定 一 个 实例 时 预测 目标 概念 的 值 。 加 权 多 数 算法 
的 一 个 有 趣 属 性 是 它 可 以 处 理 不 一 致 的 训练 数据 。 这 是 因为 它 不 会 消除 掉 与 样 例 不 一 致 的 假 
设 , 而 只 是 降低 其 权 。 它 的 第 二 个 有 趣 属 性 是 :要 计算 此 算法 的 出 错 数 量 边界 ,可 以 用 预测 算 
法 池 中 最 好 的 那个 算法 的 出 错 数 量 。 

加 权 多 数 算法 一 开始 将 每 个 预测 算法 赋 以 权 1, 然 后 考虑 训练 样 例 。 只 要 一 个 预测 算法 
误 分 类 新 训练 样 例 , 它 的 权 被 乘 以 某 个 系数 6,0< 8 < 1。 加 权 多 数 算法 的 确切 定义 见 表 7-1。 
注意 ,如 果 8 = 0, 那 么 加 权 多 数 算法 等 于 H ALvINc 算 法 。 另 一 方面 ,如 果 为 8 选择 其 他 的 值 ， 
没有 一 个 预测 算法 会 被 完全 去 除 。 如 果 一 算法 误 分 类 一 个 样 例 , 它 在 将 来 会 占 较 少 的 票数 比 
例 。 








760 REFIT 








表 7-1 加 权 多 数 算法 


ai 代表 算法 池 4 中 第 i 个 预测 算法 , wi 代表 与 a 相关 联 的 权 值 
全 对 所 有 i, 初始化 w1 
@ 对 每 个 训练 样 例 (x，c(x)) 做 : 
全 初始 化 go 和 gi 为 0 
o 对 每 个 预测 算法 a; 
@ 如果 a,(x)=0, 那 么 go 一 go+ w; 
如 果 a:(x) =1, 那 么 qit-qit wi 
@ 如 果 gj > qo, 那么 预测 c(x)=1 
如 果 go> gq1; 那 么 预测 c(x)=0 
如 果 qi= qo BAM cl(x) 随 机 预测 0 或 ] 
Ot 4 中 每 个 预测 算法 ai 做 : 
如 果 ai(x)zc(x), 那 么 wepu; 


现在 证 明 , 加 权 多 数 算法 的 出 错 数 量 边界 可 以 由 投票 池 中 最 佳 预测 算法 的 出 错 数 来 表 
示 。 

定理 7.5; 加 权 多 数 算法 的 相对 误差 界限 $ D 为 任意 的 训练 样 例 序列 , 令 4 为 任意 个 预 
测算 法 的 集合 , 令 大 为 4 中 任意 算法 对 样 例 序 列 D 的 出 错 次 数 的 最 小 值 。 那 么 使 用 B= 1/2 的 加 
权 多 数 算法 在 D 上 出 错 次 数 最 多 为 : 

2.4(k + log,n) 

证 明 : 对 定理 的 证 明 可 通过 比较 最 佳 预 测算 法 的 最 终 权 和 所 有 算法 的 权 之 和 。 令 a 代表 4 
中 一 算法 ,并 且 它 出 错 的 次 数 为 最 优 的 次。 与 a; 相 联 系 的 权 w, 将 为 (1/2)*, 因 为 它 的 初始 权 为 
1 并 在 每 次 出 错时 乘 以 1/2。 现 在 考虑 4 中 所 有 个 算法 的 权 的 入 = 2r w, WIRA n. X 


加 权 多 数 算法 的 每 次 出 错 ,下 ab Be 多。 其 原因 是 加 权 投 票 占 有 多 数 的 算法 最 少 拥有 
整个 权 W 的 一 半 值 ,而 这 一 部 分 将 被 乘 以 因子 1/2。 令 M 代表 加 权 多 数 算法 对 训练 序列 D 的 总 


出 错 次 数 ,那么 最 终 的 总 权 W 最 多 为 n (2) 。 因 为 最 终 的 权 v 不 会 比 最 终 总 权 大 ,因此 有 


重新 安排 各 项 得 到 : 
(k + log 2 n) 


7 (2) < 2.4(k + log n) 


< 


定理 得 证 。 


概括 地 说 ,上 面 的 定理 说 明 加 权 多 数 算法 的 出 错 数量 不 会 大 于 算法 池 中 最 佳 算 法 出 错 数 
量 ,加 上 一 个 随 著 算 法 池 大 小 对 数 增长 的 项 ,再 乘 以 一 常数 因子 。 
该 定理 由 Littlestone & Warmuth(1991) 进 一 步 一 般 化 ,证 明了 对 任意 0<B<1, 上 述 边 界 


为 : 


klog, “5 + logan 


lor. —2— 
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7.6 


小 结 和 补充 读物 


本 章 的 要 点 包括 : 

o 可 能 近似 正确 模型 (PAC) 针 对 的 算法 从 某 概念 类 C 中 学 习 目 标 概念 ,使 用 按 一 个 未 知 
但 固定 的 概念 分 布 中 随机 抽取 的 训练 样 例 。 它 要 求学 习 器 可 能 (以 至 少 [1 - 8] 的 概率 ) 
学 习 到 一 近似 正确 (错误 率 小 于 e) 的 假设 ,而 计算 量 和 训练 样 例 数 都 只 随 着 1/6、1/e、 
实例 长 度 和 目标 概念 长 度 的 多 项 式 级 线性 增长 。 

o PAC 学 习 模 型 的 框架 下 ,任何 使 用 有 限 假 设 空间 AEP CCH) MRSS, 
以 概率 (1 ~ 5) 输 出 一 个 且 标 概念 中 误差 在 。 范围 内 的 假设 ,所 需 随 机 抽取 训练 样 例 数 
目 为 m,H m 满足 : 


m > (In(1/6) +In| H1) 


该 式 给 出 了 PAC 模型 下 成 功 地 学 习 所 需 的 训练 样 例 数目 的 边界 。 

© PAC 学 习 模 型 的 一 个 有 约束 的 假定 是 ,学 习 器 预先 知道 某 受 限 的 概念 类 C, 它 包含 要 
学 习 的 目标 概念 。 相 反 ,不 可 知 学 习 (agnostic learning) 考 虑 更 一 般 的 问题 框架 ,其 中 学 
习 器 不 假定 目标 概念 所 在 的 类 别 。 学 习 器 只 从 训练 数据 中 输出 A 中 有 最 小 误差 率 ( 可 
能 非 0) 的 假设 。 在 这 个 受 限 较 少 的 不 可 知 学 习 模 型 中 ,学 习 保 证 以 概率 (1 - OM 
中 最 可 能 的 假设 中 输出 错误 率 小 于 。 的 假设 ,要 观察 的 随机 抽取 训练 样 例 数目 m 满 
足 : 


m > 53(In(1/8) +n! HI) 


© 成 功 地 学 习 所 需 的 训练 样 例 数目 很 强烈 地 受到 学 习 器 所 考虑 的 假设 空间 复杂 度 的 影 
响 。 对 于 假设 空间 H 复杂 度 的 一 个 有 用 的 度量 是 VC VC(H) VC( 昌 ) 是 可 被 H 
打 散 (以 所 有 可 能 方式 分 割 ) 的 最 大 实例 子 集 的 大 小 。 

o 在 PAC 模型 下 以 YC( 互 ) 表 示 的 足以 导致 成 功 学 习 的 训练 样 例 数 目的 上 界 为 ; 


m> + (Alog ,(2/8) + 8VC(H)log ,(13/e)) 


FRA: 
m > max| Tlog(1/8), Veoh 


© 另 一 种 学 习 模式 称 为 出 错 界限 模式 , 它 用 于 分 析 一 个 学 习 器 在 确切 学 习 到 目标 概念 之 
前 会 产生 的 误 分 类 次 数 。 例 如 ,HALvINc 算 法 在 学 习 到 H 中 的 任意 目标 概念 前 会 有 至 
多 Llogz181j 次 出 错 。 对 任意 概念 类 C ,最 坏 情况 下 最 佳 算法 将 有 0pi(C) 次 出 错 ,其 
中 : 

VC(C) < Opt(C) < log,(| C|) 


© 加 权 多 数 算法 结合 了 多 个 预测 算法 的 加 权 投 票 来 分 类 新 的 实例 。 它 基于 这 些 预 测算 法 
在 样 例 序列 中 的 出 错 来 学 习 每 个 算法 的 权 值 。 有 趣 的 是 ,加 权 多 数 算法 产生 的 错误 界 


限 可 用 算法 池 中 最 佳 预 测算 法 的 出 错 数 来 计算 。 
计算 学 习 理论 中 许多 早期 的 工作 针对 的 问题 是 :在 给 定 一 个 不 定 长 的 训练 样 例 序 例 时 ,学 
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习 器 是 否 能 在 极限 时 确定 目标 概念 。 在 极限 模型 下 的 确定 方法 由 Gold (1967) 给 出 。 关 于 此 
领域 的 一 个 好 的 综述 见 (Angluin 1992), Vapnik (1982) 详 细 考 查 了 一 致 收 伍 (uniform 
convergence) 的 问题 ,而 密切 相关 的 PAC 学 习 模型 由 Valiant (1984) 提 出 。 本 章 中 e- 详 尽 变型 
空间 的 讨论 基于 Haussler (1988) MMi. TE PAC 模型 下 的 一 组 有 用 的 结论 可 在 Bluer et al. 
(1989) 中 找到 。Kearns & Vazirani (1994) 提 供 了 计算 学 习 理 论 中 许多 结论 的 一 个 优秀 的 六 
述 。 此 领域 一 些 早期 的 文章 包括 Anthsny & Biggs (1992) 和 Natarajan (1991). 

目前 ,计算 学 习 理 论 的 研究 覆盖 了 许 许多 多 的 学 习 模 型 和 学 习 算法 。 许 多 这 方面 的 研究 
可 以 在 计算 学 习 理论 (COLT) 的 年 度 会 议 的 论文 集中 找到 。 期 刊 《机 器 学 习 》( Machine 
Learning ) 中 一 些 特 殊 的 栏目 也 涉及 这 一 主题 。 


习题 

7.1 考虑 训练 一 个 两 输入 感知 器 。 给 出 训练 样 例 数目 的 上 界 , 以 90% 的 置信 度 保证 学 习 到 
的 感知 器 的 真实 错误 率 不 超过 5%。 这 一 边界 是 否 实际 ? 

7.2 考虑 概念 类 C 的 形式 为 (a<x<5)A(cs<y<d), 其 中 a,b,c,d 为 (0, 99) 间 的 整数 。 


注意 ,该 类 中 的 每 个 概念 对 应 一 个 矩形 , 它 的 边界 是 x , y 平面 的 一 部 分 上 的 整数 值 。 提 

示 : 给 定 一 个 该 平面 上 的 区 间 ,其 边界 为 点 (0, 0) 和 (n -1,n -1)。 在 此 区 间 内 不 同 的 

实 边界 矩形 的 数量 为 { +】。 

(a) 给 出 随机 抽取 训练 样 例 的 数量 的 上 界 , 使 之 足以 保证 对 C 中 任意 目标 概念 “, 任 一 
使 用 H= C 的 学 习 器 将 以 95% 的 概率 输出 一 个 错误 率 最 多 为 0.15 的 假设 。 

(b) 现 假定 矩形 边界 a, b,c,d 取 实 数值 。 重 新 回答 第 一 个 问题 。 

7.3 在 本 章 中 我 们 推导 了 训练 样 例 数 量 的 表达 式 ,使 足以 保证 每 个 假设 的 真实 错误 率 不 会 比 
观察 到 的 训练 错误 率 errorp( 户 ) 加 上 es 还 差 。 特 别 是 我 们 使 用 了 Hoeffding 界限 来 推导 
式 (7.3)。 试 推导 训练 样 例 数目 的 另 一 表达 式 , 使 足以 保证 每 个 假设 的 真实 错误 率 不 会 
差 于 (1+ 7Y)errorp(h)。 推 导 的 过 程 可 使 用 下 面 通用 的 Chernoff 界限 。 

Chernoff 界限 :假定 X1, Xn 为 m 个 独立 硬币 投掷 (Bernonlli 实验 ) 的 输出 ,其 中 
每 次 实验 正面 的 概率 为 Pr[ XX; = 1] = p ,而 反面 概率 Pr[X;=0]=1-p。 定 义 $= XI 
+ Xatt Xn 为 这 m 次 实验 输出 的 和 。5/m 的 期 望 值 为 E[ S$/m] = po Chernoff 界 
限 描述 了 S/m 以 某 因子 0<7Y<1 不 同 于 p 的 概率 : 


Pr[S/m > (1+ 7y)p] s en mr /3 
2 
Pri S/m < (1 - y)p] =s e7 "pY 2 


7.4 考虑 一 个 学 习 问 题 ,其 中 X -AHKERA HEA C= H 为 实数 上 的 区 间 集 合 ,已 = {(a 
<x<b)1 a,bE% 1。 车 一 假设 与 此 目标 概念 的 m 个 样 例 一 致 ,那么 其 错误 率 至 少 为 
e 的 概率 是 多 少 ? 使 用 VC 维 解决 此 问题 。 是 否 能 找到 另 一 种 方法 基于 最 基本 的 原理 
而 不 用 VC 维 来 解决 此 问题 ? 

7.5 考虑 对 应 x,y 平 面 上 所 有 点 的 实例 空间 X, 给 出 下 列 假 设 空间 的 VC 维 : 
(a) H, = x,y 平面 上 所 有 和 矩形 的 集合 。 即 H=f(Ca< ax <b} Ale<y<d))la, b,c, d ER | 
(b) 五 . = x,y 平面 的 圆 。 在 圆 内 的 点 被 分 类 为 正 例 。 
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7.6 


7.7 


7.8 


(c) H,= x,y 平 面 内 的 三 角形 。 在 三 角形 内 的 点 被 分 类 为 正 例 。 

写 出 习题 7.5 中 对 H, 的 一 个 一 致 学 习 器 。 随 机 生成 一 组 不 同 的 目标 概念 ,对 应 平面 上 
不 同 的 矩形 。 为 每 一 个 目标 概念 随机 生成 样 例 ,其 中 的 实例 分 布 为 矩形 (0，0) 到 
《100，100) 内 的 均匀 分 布 。 在 图 上 画 出 对 应 训练 样 例 数目 的 m 的 泛 化 错误 率 。 在 同一 
EEEH ô =0.95 时 6 Am 之 间 理 论 上 的 关系 曲线 。 该 理论 是 否 与 实验 相符 合 ? 

考虑 假设 类 ,4 为 n 个 布尔 变量 上 的 “规则 的 且 深 度 为 2 的 决策 树 "。 这 样 的 决策 树 是 
指 深度 为 2( 即 有 四 个 时 结 点 ,与 根 的 矩 离 都 为 2) , 且 根 的 左 子 结 点 和 右 子 结 点 要 求 包含 
同样 的 变量 。 例 如 ,下 面 的 树 为 H,ss 中 的 一 个 实例 。. 


X3 


(a) 以 n 的 函数 形式 表示 出 ,ss 中 有 多 少 语法 不 同 的 树 。 

(b) 给 出 PAC 模型 下 所 需 的 样 例 数目 上 界 ,使 学 习 到 ,js 错误 率 为 6 ,置信 度 为 6. 

(c) 考虑 下 面 的 对 及 ,js 类 的 加 权 多 数 算法 。 开 始 , H,zs 中 所 有 假设 初始 权 值 都 为 1。 每 
次 遇 到 新 样 例 , 要 基于 H,as 中 所 有 假设 的 加 权 投 票 进 行 预 测 。 然 后 ,不 是 消除 掉 不 
一 致 的 树 ,而 是 将 它们 的 权 值 以 因子 2 进行 前 减 。 此 过 程 最 多 会 有 多 少 次 出 错 ? 以 
Haz 中 最 佳 树 的 出 错 数 和 n 来 表示 。 

本 题 主 要 考虑 本 章 中 的 PAC 分 析 和 第 5 章 讨 论 的 假设 评估 之 间 的 联系 。 考 虑 一 个 学 习 

任务 ,其 中 实例 都 由 n 个 布尔 变量 描述 (如 : x, A xz A x3…x;) 并 且 其 抽取 按照 某 固定 

但 未 知 的 概率 分 布 统 目标 概念 已 知 可 由 布尔 属性 或 它们 的 否定 的 合 取 来 表示 (如 x2 

Ax5) ,并且 学 习 算 法 使 用 该 概念 类 作为 它 的 假设 空间 有 H。 一 个 一 致 学 习 髓 被 给 予 100 

ME 多 抽取 的 训练 样 例 。 它 从 H 中 输出 一 个 假设 ,是 与 所 有 100 个 样 例 一 致 的 ( 即 在 

这 些 训练 样 例 上 hh 的 错误 率 为 0)。 

(a) 我 们 感 兴趣 的 是 h 的 真实 错误 率 , 即 将 来 按 多 抽取 的 实例 被 误 分 类 的 概率 。 基 于 
上 面 的 信息 ,能 否 给 出 一 个 区 间 ,使 真实 错误 率 落 人 其 中 的 概率 至 少 为 95%? 如 果 
能 ,请 描述 该 区 间 并 简 述 理由 。 否 则 ,解释 困难 所 在 。 

(b) 现在 抽取 100 个 新 的 实例 ,抽取 按照 分 布 多 并 相互 独立 。 结 果 发 现 h 将 100 个 新 样 
例 中 的 30 个 误 分 类 了 。 能 否 给 出 一 个 区 间 使 真实 错误 率 落 人 其 中 概率 约 为 95%? 
(在 这 里 忽略 以 前 对 训练 数据 的 性 能 。) 如 果 能 够 ,请 描述 该 区 间 并 简 述 理由 。 否 则 
解释 困难 所 在 。 

(c) 即使 h 能 够 完善 地 分 类 训练 样 例 , 它 仍然 把 新 样 例 的 30% 误 分 类 了 。 判 断 这 种 情 
况 是 对 较 大 的 n 还 是 较 小 的 n 更 有 可 能 出 现 。 用 一 句 话 说 明 你 的 理由 。 
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第 8 章 ， 基 于 实例 的 学 习 


已 知 一 系列 的 训练 样 例 ,很 多 学 习 方法 为 目标 函数 建立 起 明确 的 一 般 化 描述 。 但 与 此 不 
同 ,基于 实例 的 学 习 方法 只 是 简单 地 把 训练 样 例 存储 起 来 。 从 这 些 实例 中 泛 化 的 工作 被 推迟 
到 必须 分 类 新 的 实例 时 。 每 当 学 习 器 遇 到 一 个 新 的 查询 实例 , 它 分 析 这 个 新 实例 与 以 前 存储 
的 实例 的 关系 ,并 据 此 把 一 个 目标 函数 值 赋 给 新 实例 。 基 于 实例 的 学 习 方法 包括 最 近邻 
(nearest neighbor) 法 和 局 部 加 权 回 归 (locally weighted regression) 法 ,它们 都 假定 实例 可 以 被 
表示 为 欧 氏 空间 中 的 点 。 基 于 实例 的 学 习 方 法 还 包括 基于 案例 的 推理 (case-based reasoning) , 
它 对 实例 采用 更 复杂 的 符号 表示 。 基 于 实例 的 学 习 方 法 有 时 被 称 为 消极 (lazy) 学 习 法 ,因为 
它们 把 处 理工 作 延 迟到 必须 分 类 新 的 实例 时 。 这 种 延迟 的 或 消极 的 学 习 方法 有 一 个 关键 的 优 
点 , 即 它们 不 是 在 整个 实例 空间 上 一 次 性 地 估计 目标 函数 ,而 是 针对 每 个 待 分 类 新 实例 作出 局 
部 的 和 相 异 的 估计 。 


8.1 简介 


基于 实例 的 学 习 方法 中 ,最 近邻 法 和 局 部 加 权 回 归 法 用 于 逼近 实 值 或 离散 目标 函数 ,它们 
在 概念 上 都 很 简明 。 对 于 这 些 算法 ,学 习 过 程 只 是 简单 地 存储 已 知 的 训练 数据 。 当 遇 到 新 的 
查询 实例 时 ,一 系列 相似 的 实例 被 从 存储 器 中 取出 ,并 用 来 分 类 新 的 查询 实例 。 这 些 方法 与 其 
他 章 讨论 的 方法 相 比 ,一 个 关键 的 差异 是 :基于 实例 的 方法 可 以 为 不 同 的 待 分 类 查询 实例 建立 
不 同 的 目标 函数 逼近 。 事 实 上 ,很 多 技术 只 建立 目标 函数 的 局 部 逼近 ,将 其 应 用 于 与 新 查询 实 
例 邻 近 的 实例 ,而 从 不 建立 在 整个 实例 空间 上 都 表现 良好 的 允 近 。 当 目标 函数 很 复杂 但 却 可 
用 不 太 复 杂 的 局 部 允 近 描述 时 ,这 样 做 有 显著 的 优势 。 

基于 实例 的 方法 也 可 以 使 用 更 复杂 的 符号 表示 法 来 描述 实例 。 在 基于 案例 的 学 习 中 , 实 
例 即 以 这 种 方式 表示 ,而 且 也 按照 这 种 方式 来 确定 邻近 实例 。 基 于 案例 的 推理 已 经 被 应 用 到 
很 多 任务 中 ,比如 ,在 咨询 台 上 存储 和 复 用 过 去 的 经 验 ;根据 以 前 的 法 律 案 件 进行 推理 ;通过 复 
用 以 前 求解 的 问题 的 相关 部 分 来 解决 复杂 的 调度 问题 。 

基于 实例 方法 的 一 个 不 是 是 ,分 类 新 实例 的 开销 可 能 很 大 。 这 是 因为 几乎 所 有 的 计算 都 
发 生 在 分 类 时 ,而 不 是 在 第 一 次 遇 到 训练 样 例 时 。 所 以 ,如 何 有 效 地 索引 训练 样 例 , 以 减少 查 
询 时 所 需 的 计算 是 一 个 重要 的 实践 问题 。 此 类 方法 的 第 二 个 不 足 是 (尤其 对 于 最 近邻 法 ), 当 
从 存储 器 中 检索 相似 的 训练 样 例 时 ,它们 一 般 考虑 实例 的 所 有 属性 。 如 果 目 标 概 念 仅 依 赖 于 
很 多 属性 中 的 几 个 时 ,那么 真正 最 “相似 ”的 实例 之 间 很 可 能 相距 其 远 。 l 

在 下 一 节 我 们 将 介绍 ESB (k-NeaResT NEIGHBOR) 算 法 以 及 这 个 广泛 应 用 的 方法 的 几 
个 变 体 。 在 此 之 后 我 们 将 讨论 局 部 加 权 回 归 法 , 它 是 一 种 建立 目标 函数 的 局 部 逼近 的 学 习 方 
法 ,这 种 方法 可 以 被 看 作 大 近 邻 算法 的 一 般 形 式 。 然 后 我 们 描述 径 向 基 函 数 radial basis 
function) 网 络 , 这 种 网 络 为 基于 实例 的 学 习 算 法 和 神经 网 络 学 习 算法 提供 了 一 个 有 趣 的 桥梁 。 
再 下 一 节 讨 论 基 于 案例 的 推理 ,一 种 使 用 符号 表示 和 基于 知识 的 推理 (knowledge-based inference) 
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的 方法 。 这 一 节 包 括 了 一 个 基于 案例 的 推理 应 用 实例 ,用 于 解决 工程 设计 问题 。 最 后 ,我 们 讨 
论 了 本 章 讲 述 的 消极 学 习 方 法 和 本 书 其 他 各 章 的 积极 (eager) 学 习 方 法 间 的 差异 。 


8.2 HK- 近 邻 算法 


基于 实例 的 学 习 方法 中 最 基本 的 是 近邻 算法 。 这 个 算法 假定 所 有 的 实例 对 应 于 n 维 
空间 .2" 中 的 点 。 一 个 实例 的 最 近邻 是 根据 标准 欧 氏 距离 定义 的 。 更 精确 地 讲 , 把 任意 的 实 
Bil x 表示 为 下 面 的 特征 向 量 : 

Cai(%),a(x),...an(x)) 


其 中 ,a,(zx) 表 示 实 例 x 的 第 r 个 属性 值 。 那 么 两 个 实例 x; 和 zx; 间 的 距离 定义 为 d( xi， 


x) ,其 中 : 
dis xj) = | D lala) ~ arlaj)? 


在 最 近邻 学 习 中 ,目标 函数 值 可 以 是 离散 值 也 可 以 是 实 值 。 我 们 先 考 虑 学 习 以 下 形式 的 
By A eae RV, A V 是 有 限 集合 {v1,...v,|。 表 8-1 Bi TTA A wR 
的 近邻 算法 。 正 如 表 中 所 指出 的 ,这 个 算法 的 返回 值 六 x,) 为 对 f(x%,) 的 估计 , 它 就 是 距离 
x 最 近 的 & 个 训练 样 例 中 最 普遍 的 了 值 。 如 果 我 们 选择 k= 1, 那 么 1- 近邻 算 法 "就 把 f(x;) 
PR f(x) ,其 中 x; 是 最 靠近 c, 的 训练 实例 。 对 于 较 大 的 大 值 ,这 个 算法 返回 前 大 个 最 靠近 
的 训练 实例 中 最 普遍 的 值 。 
8-1 MERKRA BV k ERA 


训练 算法 : 
@ 对 于 每 个 训练 样 例 (x ，F(x ), 把 这 个 样 例 加 入 列表 training _ examples 
分 类 算法 : 
@ 给 定 一 个 要 分 类 的 查询 实例 x, 
© £ training _examples 中 选 出 最 靠近 Xq 的 个 实例 ,并 用 x)... x, 表示 
9 返回 
k 
Fs) argmax 2 8( v, fC x;)) 
其 中 ,如 果 a= 5 那么 5(a, 5) =1, 否 则 6(a, b)=0 


图 8-1 图 解 了 一 种 简单 情况 下 的 近邻 算法 ,在 这 里 实例 是 二 维 空间 中 的 点 ,目标 函数 
具有 布尔 值 。 正 反 训 练 样 例 用 “+” 和“ - "分 别 表示 。 图 中 也 画 出 了 一 个 查询 点 x*,。 注 意 在 
这 幅 图 中 ,1- 近 邻 算法 把 x, 分 类 为 正 例 ,然而 5- 近 邻 算法 把 *, 分 类 为 反例 。 

近邻 算法 隐 含 考虑 的 假设 空间 H 的 特性 是 什么 呢 ? 注意 ,近邻 算法 从 来 不 形成 关于 目 
标 函数 f 的 明确 的 一 般 假设 7。 它 仅 在 需要 时 计算 每 个 新 查询 实例 的 分 类 。 然 而 ,我 们 依然 可 
以 问 ; 隐 含 的 一 般 函数 是 什么 ? 或 者 说 ,如 果 保 持 训练 样 例 不 变 并 用 X 中 的 每 个 可 能 实例 查询 
算法 ,会 得 到 什么 样 的 分 类 ? 图 8-1 中 的 右 图 画 出 了 1- 近 邻 算法 在 整个 实例 空间 上 导致 的 决策 
面 形状 。 决 策 面 是 围绕 每 个 训练 样 例 的 凸 多 边 形 的 合并 。 对 于 每 个 训练 样 例 ,多边形 指出 了 一 
个 查询 点 集合 , 它 的 分 类 完全 由 相应 训练 样 例 决 定 。 在 这 个 多 边 形 外 的 查询 点 更 接近 其 他 的 训 
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练 样 例 。 这 种 类 型 的 图 经 常 被 称 为 这 个 训练 样 例 集合 的 Voronoi 图 3( Voronoi diagram), 





左 图 画 出 了 一 系列 的 正 反 训练 样 例 和 一 个 要 分 类 的 查询 实例 go 1- 近邻 算法 把 x, 分 类 为 正 例 ,然而 5 - 近邻 算 
法 把 x, 分 类 为 反例 。 右 图 是 对 于 一 个 典型 的 训练 样 例 集 合 1 - 近邻 算法 导致 的 决策 面 。 围 绕 每 个 训练 样 例 的 凸 
多 边 形 表示 最 靠近 这 个 点 的 实例 空间 ( 即 这 个 空间 中 的 实例 会 被 1 - 近邻 算法 赋予 该 训练 样 例 所 属 的 分 类 ) 


图 8-1 &- 近 邻 算法 


对 前 面 的 太 近 邻 算法 作 简单 的 修改 后 , 它 就 可 被 用 于 逼近 连续 值 的 目标 函数 。 为 了 实现 
这 一 点 ,我 们 让 算法 计算 个 最 接近 样 例 的 平均 值 ,而 不 是 计算 其 中 的 最 普遍 的 值 。 更 精确 
地 讲 , 为 了 逼近 一 个 实 值 目标 函数 f 2" ABM RARE PHAR : 


Do fla) 
k 


fla) =< (8.1) 


8.2.1 距离 加 权 最 近邻 算法 


对 大 近邻 算法 的 一 个 明显 的 改进 是 对 大 个 近邻 的 贡献 加 权 , 根据 它们 相对 查询 点 x。 的 
距离 ,将 较 大 的 权 值 赋 给 较 近 的 近邻 。 例 如 ,在 表 8-1 逼近 离散 目标 函数 的 算法 中 ,我 们 可 以 
根据 每 个 近邻 与 *, 的 距离 平方 的 倒数 加 权 这 个 近邻 的 选举权”。 方 法 是 通过 用 下 式 取代 表 
8-1 算 法 中 的 公式 来 实现 : 


Fl xq) + argmax >) wd(v, f(xi)) (8.2) 
其 中 : 
! (8.3) 


vi = d(x» x;)° 
为 了 处 理 查询 点 x, 恰好 匹配 某 个 训练 样 例 x, TT PROT d(C x, x)? 为 0 的 情况 ,我 们 令 
这 种 情况 下 的 AC ) 等 于 /(x;)。 如 果 有 多 个 这 样 的 训练 样 例 ,我 们 使 用 它们 中 占 多 数 的 分 类 。 
我 们 也 可 以 用 类 似 的 方式 对 实 值 目标 函数 进行 距离 加 权 , 只 要 用 下 式 替 换 表 8-1 中 的 公 
式 : 
2 wif (Xi) 
k 


f(r) 5S (8.4) 
ja “i 





日 、 又 称 梯 森 多 边 形 (Thiessen Polygons) ,可 以 理解 为 对 空间 的 一 种 分 割 方式 ,一 个 梯 森 多 边 形 内 的 任 一 点 到 本 梯 森 多 
变形 中 心 点 的 距离 都 小 于 到 其 他 梯 森 多 边 形 中 心 点 的 距离 。 
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其 中 , w 的 定义 与 式 (8.3) 中 相同 。 注 意 式 (8.4) 中 的 分 母 是 一 个 常量 , 它 将 不 同 权 值 的 
贡献 归 一 化 (例如 , 它 保证 如 果 对 所 有 的 训练 样 例 x;, f(x%;) = c, 那 么 f(x) 一 c)。 

注意 ,以 上 近邻 算法 的 所 有 变 体 都 只 考虑 个 近邻 用 以 分 类 查询 点 。 如 果 使 用 按 距离 
加 权 , 那 么 允许 所 有 的 训练 样 例 影响 x 的 分 类 事实 上 没有 坏处 ,因为 非常 远 的 实例 对 f(x,) 
的 影响 很 小 。 考 虑 所 有 样 例 的 惟一 不 足 是 会 使 分 类 运行 得 更 慢 。 如 果 分 类 一 个 新 的 查询 实例 
时 考虑 所 有 的 训练 样 例 , 我 们 称 它 为 全 局 (global) 法 。 如 果 仅 考虑 最 靠近 的 训练 样 例 , 我 们 称 
它 为 局 部 (local) 法 。 当 式 (8.4) 的 法 则 被 应 用 为 全 局 法 时 , 它 被 称 为 Shepard 法 (Shepard 
1968) 。 


8.2.2 对 /近邻 算法 的 说 明 


按 距 离 加 权 的 大 近邻 算法 是 一 种 非常 有 效 的 归纳 推理 方法 。 它 对 训练 数据 中 的 噪声 有 
很 好 的 健壮 性 ,而且 当 给 定 足够 大 的 训练 集合 时 也 非常 有 效 。 注 意 ,通过 取 上 个 近邻 的 加 权 
平均 ,可 以 消除 孤立 的 噪声 样 例 的 影响 。 

-近邻 算法 的 归纳 偏 置 是 什么 呢 ?” 通 过 分 析 图 8-1 中 的 示例 ,可 以 很 容易 地 理解 这 种 算 
法 分 类 新 查询 实例 的 根据 。 它 的 归纳 偏 置 对 应 于 假定 ;一 个 实例 的 分 类 * 与 在 欧 氏 空间 中 
它 附近 的 实例 的 分 类 相似 。 

应 用 大 近邻 算法 的 一 个 实践 问题 是 ,实例 间 的 距离 是 根据 实例 的 所 有 属性 (也 就 是 包含 
实例 的 欧 氏 空间 的 所 有 坐标 轴 ) 计 算 的 。 这 与 那些 只 选择 全 部 实例 属性 的 一 个 子 集 的 方法 不 
同 ,例如 决策 树 学 习 系 统 。 为 了 理解 这 种 策略 的 影响 ,考虑 把 上 近邻 算法 应 用 到 这 样 一 个 问 
题 :每 个 实例 由 20 个 属性 描述 ,但 在 这 些 属性 中 仅 有 2 个 与 它 的 分 类 有 关 。 在 这 种 情况 下 ,这 
两 个 相关 属性 的 值 一 致 的 实例 可 能 在 这 个 20 维 的 实例 空间 中 相距 很 远 。 结 果 , 依赖 这 20 个 
属性 的 相似 性 度量 会 误导 近邻 算法 的 分 类 。 近 邻 间 的 距离 会 被 大 量 的 不 相关 属性 所 支配 。 
这 种 由 于 存在 很 多 不 相关 属性 所 导致 的 难题 ， 有 时 被 称 为 维度 灾难 (curse of dimensionality ) o 
最 近邻 方法 对 这 个 问题 特别 敏感 。 

解决 该 问题 的 一 个 有 趣 的 方法 是 , 当 计算 两 个 实例 间 的 距离 时 ,对 每 个 属性 加 权 。 这 相当 
于 按 比例 缩放 欧 氏 空间 中 的 坐标 轴 , 缩 短 对 应 于 不 太 相关 的 属性 的 坐标 轴 , 拉 长 对 应 于 更 相关 
的 属性 的 坐标 轴 。 每 个 坐标 轴 应 伸展 的 数量 可 以 通过 交叉 验证 的 方法 自动 决定 。 具 体 做 法 如 
下 ,首先 ,假定 使 用 因子 z 伸展 ( 乘 ) 第 j 个 根 坐标 轴 , 选 择 z 的 各 个 值 z,… zw 以 使 学 习 算法 
的 真实 分 类 错误 率 最 小 化 。 其 次 ,这 个 真实 错误 率 可 以 使 用 交叉 验证 来 估计 。 所 以 ,一 种 算法 
是 随机 选取 现 有 数据 的 一 个 子 集 作为 训练 样 例 ,然后 决定 z1… z 的 值 使 剩余 样 例 的 分 类 错误 
率 最 小 化 。 通 过 多 次 重复 这 个 处 理 过 程 , 可 以 使 加 权 因 子 的 估计 更 加 准确 。 这 种 伸展 坐标 轴 
以 优化 & 近 邻 算法 的 过 程 ,提供 了 一 种 抑制 无 关 属 性 影响 的 机 制 。 

另外 一 种 更 强 有 力 的 方法 是 从 实例 空间 中 完全 消除 最 不 相关 的 属性 。 这 等 效 于 设置 某 个 
缩放 因子 z 为 0。Moore & Lee(1994) 讨 论 了 有 效 的 交叉 验证 方法 ,为 万 近邻 算法 选择 相关 
的 属性 子 集 。 确 切 地 讲 ,他们 探索 了 基于 “ 留 一 法 (leave-one-oub) 的 交叉 验证 ,在 这 种 方法 中 ， 
m 个 训练 实例 的 集合 以 各 种 可 能 方式 被 分 成 m - 1 个 实例 的 训练 集合 和 1 个 实例 的 测试 集 
合 。 这 种 方法 在 hk 近邻 算法 中 是 容易 实现 的 ,因为 每 一 次 重新 定义 训练 集 时 不 需要 额外 的 训 
练 工作 。 注 意 , 上 面 的 两 种 方法 都 可 以 被 看 作 以 某 个 常量 因子 伸展 坐标 轴 。 另 外 一 种 可 选 的 
做 法 是 使 用 一 个 在 实例 空间 上 变化 的 值 伸展 坐标 轴 。 这 样 增 加 了 算法 重新 定义 距离 度量 的 自 
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由 度 , 然 而 也 增加 了 过 度 拟 合 的 风险 。 所 以 ,局 部 伸展 坐标 轴 的 方法 是 不 太 常 见 的 。 

应 用 天 近邻 算法 的 另外 一 个 实践 问题 是 如 何 建立 高 效 的 索引 。 因 为 这 个 算法 推迟 所 有 
的 处 理 ,直到 接收 到 一 个 新 的 查询 ,所 以 处 理 每 个 新 查询 可 能 需要 大 量 的 计算 。 目 前 已 经 开发 
了 很 多 方法 用 来 对 存储 的 训练 样 例 进行 索引 ,以便 在 增加 一 定 存储 开销 情况 下 更 高 效 地 确定 
最 近邻 。 一 种 索引 方法 是 hd-tree( Bentley 1975; Friedman et al. 1977), 它 把 实例 存储 在 树 的 
叶 结 点 内 ,邻近 的 实例 存储 在 同一 个 或 附近 的 结 点 内 。 通 过 测试 新 查询 *, 的 选 定 属性 , 树 的 
内 部 结 点 把 查询 x, 排列 到 相关 的 叶 结 点 。 


8.2.3 术语 注解 


在 关于 最 近邻 法 和 局 部 加 权 回 归 法 的 很 多 文献 中 ,使 用 了 一 些 来 自 统计 模式 识别 领域 的 
术语 。 在 阅读 这 些 文献 时 , 了 解 下 列 术语 是 很 有 帮助 的 : 
e@ 回归 (Regression) 的 含义 是 逼近 一 个 实数 值 的 目标 函数 。 
o 残 差 (Residuai) 是 逼近 目标 函数 时 的 误差 f(x) - f(x). 
© 核 函数 (Kernel function) 是 一 个 距离 函数 , 它 用 来 决定 每 个 训练 样 例 的 权 值 。 换 句 话 
说 , 核 函 数 就 是 使 w; = K(d(x;, x) BIRR Ko 


8.3 局 部 加 权 回 归 


前 一 节 描述 的 最 近邻 方法 可 以 被 看 作 在 单一 的 查询 点 x = x, 上 通 近 目标 函数 /(* )。 局 
部 加 权 回 归 是 这 种 方法 的 推广 。 它 在 环绕 x, 的 局 部 区 域内 为 目标 函数 /建立 明确 的 盘 近 。 
局 部 加 权 回 归 使 用 附近 的 或 距离 加 权 的 训练 样 例 来 形成 这 种 对 /的 局 部 逼近 。 例 如 ,我 们 可 
以 使 用 线性 函数 、 二 次 函数 、 多 层 神经 网 络 或 者 其 他 函数 形式 在 环绕 x 的 邻 域内 通 近 目标 函 
数 。“ 局 部 加 权 回归 名称 中 ,之 所 以 叫 “ 局 部 "是 因为 目标 函数 的 和 逼近 仅仅 根据 查询 点 附近 的 
数据 ;之 所 以 叫 “ 加 权 ” 是 因为 每 一 个 训练 样 例 的 贡献 是 由 它 与 查询 点 间 的 距离 加 权 的 ;之 所 以 
叫 “ 回 轨 ” 是 因为 统计 学 习 界 广泛 使 用 这 个 术语 来 表示 逼近 实数 值 函 数 的 问题 。 

给 定 一 个 新 的 查询 实例 x, ,局 部 加 权 回 妇 的 一 般 方法 是 建立 一 个 逼近 了 ,使 了 拟 合 环绕 
x, 的 邻 域内 的 训练 样 例 。 然 后 用 这 个 逼近 来 计算 f(x, ) 的 值 ,也 就 是 为 查询 实例 佑 计 的 目标 
值 输出 。 然 后 /的 描述 被 删除 ,因为 对 于 每 一 个 独立 的 查询 实例 都 会 计算 不 同 的 局 部 逼近 。 


8.3.1 局 部 加 权 线 性 回归 


下 面 ,我 们 先 考虑 局 部 加 权 回 归 的 一 种 情况 ,即使 用 如 下 形式 的 线性 函数 来 逼近 x, PR 
的 目标 函数 f: 
f(x) = Wot wyala) +° + wnan(%) 
和 前 面 一 样 , a(x ) 表 示 实 例 x 的 第 i 个 属性 值 。 
回忆 第 4 章 中 我 们 讨论 的 梯度 下 降 方法 ,在 拟 合 以 上 形式 的 线性 函数 到 给 定 的 训练 集合 
时 , 它 被 用 来 找到 使 误差 最 小 化 的 系数 wo… ws。 在 那 一 章 中 我 们 感 兴趣 的 是 目标 函数 的 全 
局 和 逼近。 所 以 当时 我 们 推导 出 的 权 值 选 择 方法 是 使 训练 集合 D 上 的 误差 平方 和 最 小 化 , 即 : 


E = 237) - Hx)) (8.5) 
根据 这 个 误差 定义 ,我 们 得 出 了 以 下 梯度 下 降 训 练 法 则 ; 
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Aw, = Tu( fla) - Fle) aj(2) (8.6) 
其 中 , 是 一 个 常数 , 称 为 学 习 速率 。 而 且 这 个 法 则 已 经 被 重新 表示 ,修改 了 其 中 第 4 章 
中 的 记号 以 匹配 当前 的 记号 (也 就 是 ,上 > f(x),o>f(x),xjY>aj(%*))。 
我 们 应 该 如 何 修改 这 个 过 程 来 推导 出 局 部 逼近 呢 ? 简单 的 方法 是 重新 定义 误差 准则 E 
以 着 重 于 拟 合 局 部 训练 样 例 。 下 面 给 出 了 三 种 可 能 的 误差 准则 。 注 意 , 我们 把 误差 写 为 
E(x,), 目 的 是 为 了 强调 目前 的 误差 被 定义 为 查询 点 xy 的 函数 。 
1) 只 对 在 个 近邻 上 的 误差 平方 最 小 化 : 


ESEE Sa (fle) ~ fl)? 


2) 使 整个 训练 样 例 集合 D 上 的 误差 平方 最 小 化 ,但 对 每 个 训练 样 例 加 权 , 权 值 为 关于 相 
HE x, 距离 的 某 个 递减 函数 天 


E(x,) = TUF) - Fl %))? K(d(x,,%)) 
3) FA 1 M2: 
E3(x,) = 1D gw - f(x))?K(d(x,,%)) 


准则 2 或 许 是 最 令 人 满意 的 ,因为 它 允许 每 个 训练 样 例 都 对 x, 的 分 类 产生 影响 。 然 而 这 
种 方法 所 需 的 计算 量 随 着 训练 样 例 数量 线性 增长 。 准 则 3 很 好 地 近似 了 准则 2, 并 且 具 有 如 
下 优点 :计算 开销 独立 于 训练 样 例 总 数 ,而 仅 依赖 于 所 考虑 的 最 近邻 数 ko 
如 果 使 用 上 面 的 准则 3 ,并 使 用 与 第 4 章 相同 的 推理 方式 重新 推导 梯度 下 降 法 则 ,可 以 得 
到 以 下 训练 法 则 (见习 题 8. 1): 
Awi=7 2,  K(d(x,.x))(f(2) - f(x))a(x) (8.7) 
«Gx 的 k 个 近邻 


注意 ,这 个 新 的 法 则 和 式 (8.6) 给 出 的 法 则 的 差异 是 :实例 x 对 权 值 更 新 的 贡献 现在 乘 上 
了 一 个 距离 惩罚 项 六 (d(x,，x)) ,并且 仅 对 下 个 最 邻近 的 训练 实例 的 误差 求 和 。 事 实 上 ,如 
果 要 使 一 个 线性 函数 拟 合 固定 的 训练 样 例 集合 ,那么 有 一 些 比 梯度 下 降 更 高 效 的 方法 ,它们 直 
接 求 解 所 需要 的 系数 wo… w,。Atkeson et al.(1997a) 和 Bishop(1995) 调 查 了 几 个 这 样 的 方 
法 。 


8.3.2 局 部 加 权 回 归 的 说 明 


上 面 我 们 考虑 了 使 用 一 个 线性 函数 在 查询 实例 x, 的 邻 域内 逼近 /。 在 局 部 加 权 回 归 的 
文献 中 ,在 对 训练 样 例 距 离 加 权 方 面 , 包 含 大 量 的 可 选 方法 ,还 包含 大 量 的 目标 函数 局 部 逼近 
方法 。 大 多 数 情况 下 ,通过 一 个 常量 、 线 性 函数 或 二 次 函数 来 局 部 帝 近 目标 函数 ,更 复杂 的 聘 
数 形式 不 太 常见 ,原因 是 :(1) 对 每 个 查询 实例 用 更 复杂 的 函数 来 拟 合 ,其 代价 十 分 高 昂 ;(2) 在 
足够 小 的 实例 空间 子 域 上 ,使 用 这 些 简 单 的 近似 已 能 相当 好 地 模拟 目标 函数 。 


8.4 SaeaR 


A — Fh oR BCR UE D KB PE EHH ( radial basis function) ,这 种 方法 与 距离 加 权 何 
归 和 人 工 神经 网 络 都 有 着 紧密 联系 (Powell 1987; Broomhead & Lowe 1988; Moody & Darken 
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1989) 。 在 这 种 方法 中 , 待 学 习 的 假设 是 一 个 以 下 形式 的 函数 : 
f(x) = wo + Dy wuKul d(xu, %)) (8.8) 


其 中 ,每 个 x, 是 蕊 中 一 个 实例 , 核 函数 K,( d(x,，x)) 被 定义 为 随 距 离 d(x,，x ) 的 增 
大 而 减 小 。 这 里 的 上 是 用 户 提供 的 常量 ,用 来 指定 要 包含 的 核 函 数 的 数量 。 尽 管 (x) 是 对 
f(x) 的 全 局 逼近 ,但 来 自 每 个 K,( d(x,，x)) 项 的 贡献 被 局 部 化 到 点 x, 附近 的 区 域 。 一 种 
很 常见 的 做 法 是 选择 每 个 核 函 数 有 K,( d(x,，x ) ) 为 高 斯 函数 (Gaussian function)( 见 表 5-4), 
高 斯 函数 的 中 心 点 为 x, ,方差 是 o2。 

Ky(d(y, #)) = e APC 

下 面 我 们 来 集中 讨论 这 个 常见 的 高 斯 核 函数 。 根 据 Hartman et al. (1990) 所 指出 的 , 式 
(8.8) 这 样 的 函数 形式 能 够 以 任意 小 的 误差 逼近 任何 函数 ,只 要 以 上 高 斯 核 的 数量 足够 大 ， 
并 且 可 以 分 别 指 定 每 个 核 的 宽度 o?。 

式 (8. 8) 给 出 的 函数 可 以 被 看 作 是 描述 了 一 个 两 层 的 网 络 ,第 一 层 计算 不 同 的 
K,(d(x,，x%)), 第 二 层 计 算 第 一 层 单元 值 的 线性 组 合 。 图 8-2 0H T — A4 m E R 
(RBF) 网 络 的 例子 。 


) 


fx) 
Q 






x 


O O s.. 
a,(x) a,(x) a,(x) 


每 个 隐藏 单元 产生 一 个 激发 (activation) , 它 由 以 某 个 实例 x。 为 中 心 的 高 斯 函数 决定 。 所 以 ,除非 x 靠近 %,, 否 
则 它 的 激发 接近 于 0。 输 出 单元 产生 的 输出 是 隐藏 单元 激发 的 线性 组 合 。 尽 管 这 里 画 出 的 网 络 仅 有 一 个 输出 
但 是 也 可 以 包含 多 个 输出 


图 8-2 径 向 基 函 数 网 络 


给 定 了 目标 函数 的 训练 样 例 集合 ,一 般 分 两 个 阶段 来 训练 RBF 网 络 。 首 先 , 决 定 隐藏 单 
元 的 数量 上 ,并 通过 选取 定义 核 函 数 K,( d(x。，x)) 的 x, Mo, 值 定义 每 个 隐藏 单 元 。 其 次 ， 
使 用 式 (8.5) 给 出 的 全 局 误差 准则 来 训练 权 值 w, ,使 网 络 拟 合 训练 数据 程度 最 大 化 。 因 为 核 
函数 在 第 二 阶段 是 保持 不 变 的 ,所 以 线性 权 值 w, 可 以 被 非常 高 效 地 训练 得 到 。 

人 们 已 经 提出 了 几 种 方法 来 选取 适当 的 隐藏 单元 或 者 说 核 函数 的 数量 。 第 一 种 方法 是 为 
每 一 个 训练 样 例 (x*;，f (xi) 分 配 一 个 高 斯 核 函 数 ,此 高 斯 核 函 数 的 中 心 点 被 设 为 xi。 所 有 
高 斯 函数 的 宽度 o? 可 被 赋予 同样 的 值 。 通 过 这 种 方法 ,RBF 网 络 学 习 目标 函数 的 全 局 逼近 ， 
其 中 每 个 训练 样 例 (x;， fx;)) 都 只 在 x; 的 邻 域内 影响 六 的 值 。 这 样 选择 核 函数 的 一 个 优 
点 是 它 允 许 RBF 网 络 精确 地 拟 合 训练 数据 。 也 就 是 说 ,对 于 任意 m 个 训练 样 例 集合 ,合并 m 
个 高 斯 核 函数 的 权 值 wo… w 可 以 被 设置 为 使 得 对 于 每 一 个 训练 样 例 ( x;:，/〈 *;)) 都 满足 
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fla) =f (xi)o 

第 二 种 方法 是 选取 一 组 数量 少 于 训练 样 例 数量 的 核 函 数 。 这 种 方法 可 以 比 第 一 种 方法 更 
有 效 ,特别 是 在 训练 样 例 的 数量 巨大 的 时 候 。 核 函数 被 分 布 在 整个 实例 空间 X 上 ,它们 的 中 
心 之 间 有 均匀 的 间隔 。 或 者 也 可 以 非 均匀 地 分 布 核 阻 数 中 心 ,特别 是 在 实例 本 身 在 X 上 非 均 
名 分 布 的 时 候 。 在 后 一 种 情况 下 ,可 以 随机 选取 训练 样 例 的 一 个 子 集 作为 核 函 数 的 中 心 , 从 而 
对 实例 的 基准 分 布 进行 采样 。 或 者 ,我 们 可 以 标识 出 实例 的 原始 聚 类 (prototypical cluster) , 然 
后 以 每 个 聚 类 为 中 心 加 入 一 个 核 函 数 。 这 种 方式 的 核 沙 数 布置 可 以 通过 非 监 督 的 率 类 算法 来 
实现 ,其 中 把 训练 实例 (不 包含 目标 值 ) 拟 合 到 混合 高 斯 。 第 6. 12. 1 节 讨论 的 EM 算法 提供 了 
一 种 从 个 高 斯 函数 的 混合 中 选择 均值 ,以 最 佳 拟 合 观测 到 实例 的 方法 。 在 EM 算法 中 , 均 
值 的 选取 方法 是 :对 给 定 的 & 个 估计 的 均值 ,使 观测 到 实例 x; 的 概率 最 大 化 。 注 意 ,在 无 监督 
的 聚 类 方法 中 ,实例 的 目标 函数 值 A (*;) 不 参与 核 函 数 中 心 的 计算 。 目 标 函数 值 f(x;) 的 惟 
一 作用 是 决定 输出 层 的 权 值 wo 

总 而 言 之 ,用 多 个 局 部 核 函 数 的 线性 组 合 表示 的 径 向 基 范 数 网 络 提供 了 一 种 目标 函数 的 
全 局 逼近 。 仅 当 输入 x 落 人 某 个 核 函数 的 中 心 和 宽度 所 定义 的 区 域内 时 ,这 个 核 也 数 的 值 才 
是 不 可 忽略 的 。 因 此 ,RBF 网 络 可 以 被 看 作 目 标 函 数 的 多 个 局 部 逼近 的 平滑 线性 组 合 。RBF 
网 络 的 一 个 重要 优点 是 ,与 反 向 传播 算法 训练 的 前 馈 网 络 相 比 , 它 的 训练 更 加 高 效 。 这 是 因为 
RBF 网 络 的 输入 层 和 输出 层 可 以 被 分 别 训练 。 


8.5 基于 案例 的 推理 


大 近邻 算法 和 局 部 加 权 回 归 都 是 基于 实例 的 方法 ,它们 具有 三 个 共同 的 关键 特性 。 第 一 ， 
它们 是 消极 学 习 方法 ,都 把 在 训练 数据 之 外 的 泛 化 推迟 至 遇 到 一 个 新 的 查询 实例 时 才 进 行 。 
第 二 ,它们 通过 分 析 相 似 的 实例 来 分 类 新 的 查询 实例 ,而 忽 咯 与 查询 极其 不 同 的 实例 。 第 三 ， 
它们 把 实例 表示 为 n 维 欧 氏 空间 中 的 实数 点 。 基 于 案例 的 推理 (ease-based reasoning,CBR) 这 
种 学 习 范 型 基于 前 两 个 原则 ,但 不 包括 第 3 个 。 在 CBR 中 ,一 般 使 用 更 丰富 的 符号 描述 来 表 
示 实 例 ; 相 应 地 ,用 来 检索 实例 的 方法 也 更 加 复杂 。CBR 已 被 应 用 于 解决 很 多 问题 , 比如 , 根 
据 数据 库 中 以 前 存储 的 设计 图 纸 ,来 进行 机 械 设备 的 总 体 设 计 (Sycara et al. 1992); 根 据 以 前 
的 裁决 来 对 新 的 法 律 案件 进行 推理 (Ashley 1990) ;通过 对 以 前 的 相似 问题 的 解决 方案 的 复 用 
或 合并 ,来 解决 规划 和 调度 问题 ( Veloso 1992), 

作为 以 后 讨论 的 基础 ,让 我 们 考虑 基于 案例 的 推理 系统 的 一 个 例子 。CADET 系统 
(Sycara et al. 1992) 采 用 基于 案例 的 推理 来 辅助 简单 机 械 设备 (例如 ,水 龙头 ) 的 总 体 设计 。 它 
使 用 一 个 数据 库 , 其 中 包含 大 约 75 个 以 前 的 设计 或 设计 片断 ,来 推荐 符合 新 的 设计 规格 的 总 
体 设计 。 内 存 中 每 一 个 实例 是 通过 它 的 结构 和 定性 的 功能 来 表示 的 。 与 此 相应 ,新 的 设计 问 
题 通过 所 要 求 的 功能 和 结构 来 表示 。 图 8-3 画 出 了 这 个 问题 。 图 的 上 半 部 分 显示 了 一 个 典型 
的 存储 案例 ,被 称 为 T 型 接头 管 。 它 的 功能 被 表示 为 输入 和 输出 点 的 流量 和 温度 间 的 定性 关 
系 。 在 右 侧 的 功能 描述 中 , 标 有 “+ ”的 箭头 表明 箭头 头 部 的 变量 随 着 箭头 尾部 的 变量 上 升 。 
例如 ,输出 流量 Q 随 着 输入 流量 01 增长 。 类 似 地 ,“ - "标记 表明 箭头 头 部 的 变量 随 着 稍 头 
尾部 的 变量 下 降 。 这 幅 图 的 下 半 部 分 画 出 了 一 个 新 的 设计 问题 , 它 通 过 新 设计 中 所 要 求 的 功 
能 来 描述 。 这 个 功能 描绘 了 一 种 水 龙头 的 行为 特征 。 这 里 0。 指 进 入 水 龙头 的 冷水 流量 , 0。 
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指 热 水 的 输入 流量 , On 指 流出 水 龙头 的 单一 混合 流量 。 与 此 类 似 , To Ta AT, 分 别 指 热 
水 .冷水 和 混合 水 流 的 温度。 变量 C, 表示 输入 到 水 龙头 的 温度 控制 信号 , Cy 表示 对 水 流 的 控 
制 信号 。 注 意 , 所 要 求 的 功能 描述 中 指出 ,这些 控制 信号 C, 和 Cr 用 来 影响 水 流 0. 和 Q, MA 
而 间接 影响 水 龙头 的 输出 流量 CO。 和 温度 Tu 0 

一 个 存储 的 案例 : T 型 接头 管 


结构 : 功能 : 
QT 7 = 温度 (temperature) 


' l Q = 水 流 (waterflow) 2, > Q 
Q, + 


一 个 问题 的 规格 说 明 : 水 龙头 
结构 : 功能 : 


C < 十 入 OO we 
? So 
T Q 
To 
T, 


上 半 部 分 描绘 了 CADET 案 例 库 中 一 个 典型 的 设计 片断 。 它 的 功能 是 通过 了 型 接头 变量 间 的 定性 依赖 关系 图 
表示 的 (在 正文 中 具体 描述 )。 下 半 部 分 显示 了 一 个 典型 的 设计 问题 


8-3 ”存储 的 案例 和 新 问题 


给 定 新 设计 问题 的 功能 说 明 ,CADET 从 它 的 案例 库 中 搜索 存储 的 案例 ,使 它 的 功能 描述 
和 新 设计 问题 相 下 配 。 如 果 发 现 了 一 个 精确 的 匹配 ,表明 某 个 存储 案例 精确 实现 了 所 要 求 的 
功能 ,那么 可 以 返回 这 个 案例 作为 新 设计 问题 的 建议 方案 。 如 果 没 有 发 现 精确 的 匹配 ， 
CADET 可 能 找到 匹配 所 需 功能 的 不 同 子 图 的 案例 。 例 如 ,在 图 8-3 中 ,T 型 接头 的 功能 匹配 
了 水 龙头 功能 图 的 一 个 子 图 。 更 一 般 地 讲 , CADET 在 两 个 功能 图 间 搜 索 同 构 子 图 (isomor- 
phisms subgraph) ,以 发 现 一 个 案例 的 某 部 分 ,使 它 匹配 设计 规格 说 明 的 相应 部 分 。 此 外 ,系统 
可 以 加 工 原始 的 功能 说 明 图 ,产生 等 价 的 子 图 以 匹配 更 多 的 案例 。 它 使 用 关于 物理 感应 的 一 
般 知 识 来 创建 这 样 的 加 工 过 的 功能 图 。 例 如 ,利用 一 种 重 写 规则 可 以 把 以 下 感应 : 

4 一 ~ 有 
重 写 为 : 
4 -一 ~。x 一 > 有 8 

这 个 重 写 规则 可 以 被 解释 为 :如 果 B 随 4 上 升 ,那么 一 定 可 以 找到 某 个 x ,满足 B 随 x 
上 升 而 且 % BAA 上 升 。 这 里 ,x 是 一 个 全 称 量化 的 变量 , 它 在 功能 图 与 这 个 案例 库 匹 配 时 被 
限定 。 事 实 上 ,图 8-3 中 的 水 龙头 的 功能 图 就 是 应 用 这 个 重 写 规则 从 原来 的 功能 说 明 中 加 工 
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得 到 的 。 

通过 检索 匹配 不 同 子 图 的 多 个 案例 ,有 时 可 以 拼接 得 到 整个 设计 。 一 般 来 说 ,从 多 个 检索 
到 的 案例 产生 最 终 方 案 的 过 程 可 以 很 复杂 。 为 了 合并 存储 案例 中 检索 到 的 部 分 ,可 能 需要 从 
头 设计 系统 的 各 个 部 分 ,也 可 能 需要 回溯 以 前 的 设计 子 目 标 ,从 而 丢弃 前 面 检索 到 的 案例 。 
CADET 合并 和 自 适应 已 检索 到 案例 并 形成 最 终 设计 的 能 力 很 有 限 , 它 主要 依赖 用 户 来 做 自 
适应 阶段 的 处 理 。 正 如 Sycara et al.(1992) 所 描述 的 ,CADET 是 一 个 研究 用 的 原型 系统 ,用 来 
探索 基于 案例 的 推理 在 总 体 设计 中 的 潜在 作用 。 它 不 具备 用 来 把 这 些 抽象 的 总 体 设计 提炼 成 
最 终 设计 的 分 析 算 法 。 

对 于 CADET 的 问题 框架 和 基于 实例 的 方法 (例如 ,k- 近 邻 算法 ) 的 一 般 框架 ,分 析 它 们 之 
间 的 对 应 之 处 是 有 益 的 。 在 CADET 中 每 个 存储 的 训练 样 例 描绘 了 一 个 功能 图 以 及 实现 该 功 
能 的 结构 。 新 的 查询 对 应 新 的 功能 图 。 因 此 ,我 们 可 以 把 CADET 的 问题 映射 到 标准 的 学 习 
问题 定义 中 。 其 中 ,实例 空间 X 定义 为 所 有 功能 图 的 空间 。 目 标 函 数 f 映射 到 实现 这 些 功 能 
的 结构 。 每 个 存储 训练 样 例 (x，f (x)) 是 一 个 序 偶 , 描 述 某 个 功能 图 x 和 实现 x 的 结构 
f(x)。 系 统 必 须 学 习 训练 案例 ,以 输出 满足 功能 图 查询 输入 x, 的 结构 了 (x, )。 

上 面 关 于 CADET 系统 简要 描述 说 明了 基于 案例 的 推理 系统 区 别 于 -近邻 这 样 的 方法 的 
若干 一 般 特征 : 

© 实例 或 案例 可 以 用 丰富 的 符号 描述 表示 ,就 像 CADET 中 使 用 的 功能 图 。 这 可 能 需要 

不 同 于 欧 氏 距离 的 相似 性 度量 , 比如 两 个 功能 图 的 最 大 可 共享 子 图 的 大 小 。 

o 检索 到 的 多 个 案例 可 以 合并 形成 新 问题 的 解决 方案 。 这 与 大 近邻 方法 相似 一 一 多 个 

相似 的 案例 用 来 构成 对 新 查询 的 回答 。 然 而 ,合并 多 个 检索 到 的 案例 的 过 程 与 biG 

有 很 大 不 同 , 它 依赖 于 知识 推理 而 不 是 统计 方法 。 

e 案例 检索 、 基 于 知识 的 推理 和 问题 求解 间 是 紧密 耦合 在 一 起 的 。 例 如 CADET 系统 在 

尝试 找到 匹配 的 案例 过 程 中 , 它 使 用 有 关 物 理 感 应 的 一 般 知 识 重 写 了 功能 图 。 人 们 已 

经 开发 出 很 多 其 他 的 系统 ,这 些 系 统 更 加 完整 地 把 基于 案例 的 推理 集成 到 基于 搜索 的 

问题 求解 系统 中 。ANAPRON( Golding & Rosenbloom 1991) 和 PRODIGY/ANALOGY(Veloso 

1992) 是 这 样 的 两 个 例子 。 

概括 地 讲 , 基 于 案例 的 推理 是 一 种 基于 实例 的 学 习 方 法 ,在 这 种 方法 中 ,实例 (案例 ) 可 以 
是 丰富 的 关系 的 描述 。 而 且 在 该 方法 中 ,为 了 解决 当前 查询 ,案例 检索 和 合并 过 程 可 能 依赖 于 
知识 推理 和 搜索 密集 的 问题 求解 方法 。 且 前 关于 基于 案例 的 推理 研究 的 一 个 课题 是 ,改进 索 
引 案例 的 方法 。 这 里 的 中 心 问题 是 句法 相似 度量 (例如 ,功能 图 之 间 的 子 图 同 构 ) 仅 能 近似 地 
指出 特定 案例 与 特定 问题 的 相关 度 。 当 CBR 系统 试图 复 用 检索 到 的 案例 时 , 它 可 能 遇 到 句法 
相似 度量 中 没有 捕 提 到 的 难点 。 例 如 ,在 CADET 中 ,检索 到 的 多 个 设计 片断 可 能 彼此 不 兼 
容 , 使 得 它们 无 法 被 合并 到 一 个 统一 的 最 终 设计 中 。 一 般 当 这 种 情况 发 生 时 , CBR 系统 可 回 
淹 搜 索 另 外 的 案例 以 适应 现 有 的 案例 ,或 者 求助 于 其 他 的 问题 求解 方法 。 重 要 的 是 , 当 检测 到 
这 样 的 难点 时 ,它们 也 提供 了 用 来 改进 相似 性 度量 (或 等 价 的 ,案例 库 索 引 结构 ) 的 训练 数据 。 
确切 地 讲 ,如果 根 据 相 似 性 度量 检索 到 了 一 个 案例 ,但 在 进一步 的 分 析 中 发 现 这 个 案例 与 当前 
的 设计 是 无 关 的 ,那么 这 个 相似 性 度量 会 被 改进 ,以 便 对 于 以 后 的 类 似 查 询 拒绝 这 个 案例 。 
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8.6 对 消极 学 习 和 积极 学 习 的 评论 


在 这 一 章 中 我 们 考虑 了 三 种 消极 学 习 (lazy learning ) 方 法 :上 近邻 算法 、 局 部 加 权 回 归 和 
基于 案例 的 推理 。 之 所 以 称 这些 方 法 是 消极 的 ,是 因为 它们 延迟 了 如 何 从 训练 数据 中 泛 化 的 
决策 ,直到 遇 到 一 个 新 的 查询 案例 时 才 进 行 。 本 章 讨 论 了 一 种 积极 学 习 方法 :学 习 径 向 基 函 数 
网 络 的 方法 。 之 所 以 称 这 种 方法 是 积极 的 ,是 因为 它 在 见 到 新 的 查询 之 前 就 做 好 了 泛 化 的 工 
作 一 一 在 训练 时 提交 了 定义 其 目标 函数 逼近 的 网 络 结构 和 权 值 。 根 据 同 样 的 理解 ,本 书 其 他 
章节 讨论 的 所 有 其 他 算法 都 是 积极 学 习 算法 (例如 , 反 向 传播 算法 、C4.5)。 

在 算法 能 力 方面 ,消极 方法 和 积极 方法 有 重要 差异 吗 ? 我 们 先 区 分 两 种 差异 :计算 时 间 的 
差异 和 对 新 查询 的 分 类 差异 。 在 计算 时 间 方 面 ,消极 方法 和 积极 方法 显然 有 差异 。 例 如 ,消极 
方法 在 训练 时 一 般 需要 较 少 的 计算 ,但 在 预测 新 查询 的 目标 值 时 需要 更 多 的 计算 时 间 。 

更 基本 的 问题 是 ,在 归纳 偏 置 方 面 消极 和 积极 方法 是 否 有 实质 性 的 差异 呢 ? 在 这 方面 两 
种 方法 的 关键 差异 是 : 

© 消极 方法 在 决定 如 何 从 训练 数据 D 中 泛 化 时 考虑 查询 实例 x,。 

© 积极 方法 不 能 做 到 这 一 点 ,因为 在 见 到 查询 实例 x 前 ,它们 已 经 选取 了 对 目标 函数 的 

(人 全局) 逼近 。 

这 个 区 别 会 影响 学 习 器 的 泛 化 精度 吗 ? 如 果 要 求 消极 的 和 积极 的 学 习 器 采用 同一 个 假设 
空间 万 ,那么 管 案 是 肯定 的 。 为 了 说 明 这 一 点 ,考虑 由 线性 函数 组 成 的 假设 空间 。 前 面 讨论 
的 局 部 加 权 回 归 算法 是 基于 这 样 的 假设 空间 的 消极 学 习 方 法 。 对 于 每 个 新 查询 x, CRE 
x 附近 的 训练 样 例 选 择 一 个 新 的 假设 从 训练 数据 中 泛 化 。 相 反 ,一 个 使 用 同样 的 线性 函数 假 
设 空间 的 积极 学 习 器 必须 在 见 到 查询 之 前 选择 对 目标 函数 的 逼近 。 所 以 积极 学 习 器 必须 提交 
单个 的 线性 函数 假设 ,以 覆盖 整个 实例 空间 和 所 有 未 来 的 查询 。 消 极 学 习 方法 有 效 地 使 用 了 
更 丰富 的 假设 空间 ,因为 它 使 用 很 多 不 同 的 局 部 线性 函数 来 形成 对 目标 函数 的 隐 含 的 全 局 逼 
近 。 注 意 ,其 他 的 一 些 学 习 器 和 假设 空间 也 符合 同样 的 情况 。 例 如 反 向 传播 算法 的 消极 版 本 ， 
可 以 对 每 个 独立 的 查询 点 学 习 不 同 的 神经 网 络 。 这 与 第 4 章 讨论 的 反 向 传播 算法 的 积极 版 本 
形成 对 照 。 

上 面 一 段 的 核心 观点 是 ,消极 的 学 习 器 可 以 通过 很 多 局 部 逼近 的 组 合 ( 隐 含 地 ) 表 示 目 标 
函数 ,然而 积极 的 学 习 器 必须 在 训练 时 提交 单个 的 全 局 和 逼 近 。 因 此 积极 学 习 和 消极 学 习 之 间 
的 差异 意味 着 对 目标 函数 的 全 局 逼近 和 局 部 通 近 的 差异 。 

使 用 多 个 局 部 逼近 的 积极 方法 ,可 以 产生 与 消极 方法 的 局 部 通 近 同样 的 效果 吗 ? 径 向 基 
函数 网 络 可 以 被 看 作 是 对 这 个 目标 的 尝试 。RBF 学 习 方 法 是 在 训练 时 提交 目标 函数 全 局 盟 
近 的 积极 方法 。 然 而 ,一 个 RBF 网 络 把 这 个 全 局 函数 表示 为 多 个 局 部 核 函数 的 线性 组 合 。 不 
过 ,因为 RBF 学 习 方法 必须 在 知道 查询 点 之 前 提交 假设 ,所 以 它们 创建 的 局 部 和 逼近 不 能 达到 
像 消极 学 习 方法 中 那样 特别 针对 查询 点 。 然 而 ,RBF 网 络 是 从 以 训练 样 例 为 中 心 的 局 部 逼近 
中 被 “积极 "建立 的 ,或 者 说 是 以 训练 样 例 的 聚 类 为 中 心 , 不 是 以 未 知 的 未 来 查询 点 为 中 
Èo 
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近 )。 使 用 同样 假设 空间 的 积极 方法 是 更 加 受 限 制 的 ,因为 它们 必须 提交 一 个 覆盖 整个 实例 空 
间 的 单一 假设 。 当 然 ,积极 的 方法 可 以 使 用 合并 了 多 个 局 部 逼近 的 假设 空间 ,就 像 RBF 网 络 
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一 样 。 然 而 ,即使 是 这 些 合并 的 局 部 台 近 ,也 不 能 使 积极 方法 完全 具有 消极 方法 那 种 针对 未 知 
查询 作出 假设 的 能 力 。 


8.7 小 结 和 补充 读物 


本 章 的 要 点 包括 : 
o 基于 实例 的 学 习 方 法 不 同 于 其 他 的 函数 逼近 方法 ,因为 它们 推迟 处 理 训练 样 例 , 直 到 必 
须 分 类 一 个 新 查询 实例 时 才 进 行 。 因 此 ,它们 不 必 形 成 一 个 明确 的 假设 来 定义 整个 实 
例 空 间 上 的 完整 目标 函数 。 相 反 ,它们 可 以 对 每 个 查询 实例 形成 一 个 不 同 的 目标 函数 
ARBEL. 
e 基于 实例 的 方法 的 优点 包括 :通过 一 系列 不 太 复 杂 的 局 部 通 近 来 模拟 复杂 目标 函数 却 
不 会 损失 训练 样 例 中 蕴含 的 任何 信息 (因为 样 例 本 身 被 直接 地 存储 起 来 )。 主 要 的 实践 
问题 包括 :分 类 新 实例 的 效率 (所 有 的 处 理 都 在 查询 期 进行 而 不 是 事先 准备 好 ) ;难以 选 
择 用 来 检索 相关 实例 的 合适 的 距离 度量 (特别 是 当 实 例 是 用 复杂 的 符号 表示 描述 的 时 
候 ) ;无 关 特 征 对 距离 度量 的 负 作 用 。 
© 三 近邻 是 用 来 逼近 实数 值 或 离散 值 目 标 函 数 的 基于 实例 算法 , 它 假定 实例 对 应 于 n 维 
欧 氏 空 间 中 的 点 。 一 个 新 查询 的 目标 函数 值 是 根据 大 个 与 其 最 近 的 训练 样 例 的 值 估计 
得 到 的 。 
© 局 部 加 权 回 妇 法 是 大 近 邻 方法 的 推广 ,在 这 种 方法 中 ,为 每 个 查询 实例 建立 一 个 明确 
的 目标 函数 的 局 部 逼近 。 目 标 函 数 的 局 部 逼近 可 以 基于 像 常 数 、 线 性 函数 或 二 次 函数 
这 样 的 大 量 的 函数 形式 ,也 可 以 基于 空间 局 部 化 的 核 函 数 。 
o 径 向 基 函 数 (RBF) 网 络 是 一 类 由 空间 局 部 化 核 本 数 构成 的 人 工 神经 网 络 。 它 可 被 看 作 
是 基于 实例 的 方法 (每 个 核 函 数 的 影响 是 被 局 部 化 的 ) 和 神经 网 络 方法 (在 训练 期 形成 
了 对 目标 函数 的 全 局 臣 近 ,而 不 是 在 查询 期 形成 的 局 部 通 近 ) 的 混合 。 径 向 基 函 数 网 络 
已 被 成 功 地 应 用 到 很 多 课题 , 比如 视觉 场景 分 析 (interpreting visual scenes) , 其 中 假定 
空间 局 部 的 影响 是 很 合理 的 。 
o 基于 案例 的 推理 也 是 一 种 基于 实例 的 学 习 方 法 ,但 这 种 方法 使 用 复杂 的 逻辑 描述 而 不 
是 欧 氏 空间 中 的 点 来 表示 实例 。 给 定 实例 的 符号 描述 ,人 们 已 经 提出 了 大 量 的 方法 用 
于 把 训练 样 例 映 射 成 新 实例 的 目标 函数 值 。 基 于 案例 的 推理 方法 已 经 应 用 到 很 多 实际 
问题 中 ,比如 ,模拟 法 律 推理 以 及 在 复杂 的 生产 和 运输 规划 问题 中 引导 搜索 。 
-近邻 算法 是 机 器 学 习 中 被 分 析 得 最 透彻 的 算法 之 一 ,部 分 原因 是 由 于 它 出 现 的 较 早 , 另 
外 也 由 于 它 的 简明 性 。Cover & Hart(1967) 提 出 了 早期 的 理论 结果 ,Duda & Hart(1973) 提 供 
了 一 个 很 好 的 概观 。Bishop(1995) 讨 论 了 -近邻 算法 以 及 它 与 概率 密度 估计 的 关系 。Atke- 
son et al.(1997) 对 局 部 加 权 回 归 方 法 给 出 了 一 个 非常 好 的 纵览 。Atkeson et al.(1997b) 调 查 
了 这 些 方法 在 机 器 人 控制 方面 的 应 用 。 
Bishop(1995) 提 供 了 一 个 对 径 向 基 函 数 的 全 面 讨论 ,其 他 论述 由 Powell(1987) 和 Poggio & 
Girosi(1990) 给 出 。 本 书 的 第 6.12 小 节 讨 论 了 EM 算法 和 它 在 选择 混合 高 斯 均值 方面 的 应 用 。 
Kolodner(1993) 提 供 了 对 基于 案例 的 推理 的 一 般 介绍 。 以 下 文献 给 出 了 其 他 的 一 些 关 于 
近来 的 研究 成 果 的 纵览 和 汇集 :Aamodt et al. (1994), Aha et al. (1991), Haton et al. (1995), 
Riesbeck & Schank (1989), Schank et al. (1994), Veloso and Aamodt( 1995), Watson (1995), 





B8t 基于 实例 的 学 习 177 





Wess et al. (1994)。 


习题 

8.1 为 公式 (8.7) 中 的 目标 函数 的 一 个 距离 加 权 局 部 线性 逼近 推导 梯度 下 降 法 则 。 

8.2 思考 以 下 为 解决 局 部 加 权 回 归 中 的 距离 度量 的 另 一 种 方法 。 如 下 建立 一 个 虚拟 的 训练 
样 例 集合 D ;对 于 原始 训练 数据 集合 D 中 的 每 一 个 训练 样 例 (x， f(x)), 在 D' 中 创建 
出 一 定数 量 (可 能 是 分 数 ) 的 (x ，/ (x)) 的 拷贝 ,其 中 找 贝 的 数量 是 K(d(x,。，x))。 现 
在 训练 一 个 线性 通 近 来 最 小 化 以 下 误差 准则 : 

E, = 7) - fx)? 

这 里 的 想法 是 ,对 靠近 查询 实例 的 训练 样 例 产 生 较 多 的 拷贝 ,距离 远 的 拷贝 较 少 。 推 导 
出 这 个 误差 准则 的 梯度 下 降 法 则 。 把 这 个 法 则 表示 成 在 D 的 成 员 上 的 求 和 ,而 不 是 在 
D' 的 成 员 上 求 和 ,并 把 它 与 式 (8.6) 和 式 (8.7) 中 的 法 则 进行 比较 。 

8.3 ”决策 树 学 习 算法 ID3( 见 第 3 章 ) 是 积极 的 学 习 方 法 , 试 提出 这 种 算法 的 一 个 消极 版 本 。 
与 本 来 的 积极 算法 相 比 ,你 的 这 个 消极 算法 有 什么 优点 和 缺点 ? 
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第 9 章 遗传 算法 


遗传 算法 是 一 种 大 致 基于 模拟 进化 的 学 习 方 法 ,其 中 的 假设 常 被 撒 述 为 二 进 制 位 串 ,位 串 
的 含义 依赖 于 具体 的 应 用 。 然 而 ,假设 也 可 以 被 描述 为 符号 表达 式 甚至 是 计算 机 程序 。 搜 索 
合适 的 假设 是 从 若干 初始 假设 的 群体 或 集合 开始 的 。 当 前 群体 的 成 员 通 过 模仿 生物 进化 的 方 
式 来 产生 下 一 代 群 体 , 比如 说 随机 变异 ( mutation) 和 交叉 (crossover)。 每 一 步 ,根据 给 定 的 适 
应 度 评估 当前 群体 中 的 假设 ,而 后 使 用 概率 方法 选 出 适应 度 最 高 的 假设 作为 产生 下 一 代 的 种 
子 。 遗 传 算法 已 被 成 功 地 应 用 到 多 种 学 习 任务 和 最 优化 问题 中 。 例 如 ,遗传 算法 已 被 用 于 学 
习 机 器 人 控制 的 规则 集 以 及 优化 人 工 神经 网 络 的 拓扑 结构 和 学 习 参 数 。 这 一 章 既 覆盖 了 用 位 
串 描述 假设 的 遗传 算法 (genetic algorithms) ,也 覆盖 了 用 计算 机 程序 描述 假设 的 遗传 编程 (ge- 


netic programming) o 


9.1 动机 


遗传 算法 (GA) 是 一 种 受 生物 进化 启发 的 学 习 方 法 。 它 不 再 是 从 一 般 到 特殊 或 从 简单 到 
复杂 地 搜索 假设 ,而 是 通过 变异 和 重组 当前 已 知 的 最 好 假设 来 生成 后 续 的 假设 。 每 一 步 ,更 新 
被 称 为 当前 群体 (population) 的 一 组 假设 ,方法 是 通过 使 用 目前 适应 度 最 高 的 假设 的 后 代替 代 
群体 的 某 个 部 分 。 这 个 过 程 形 成 了 假设 的 生成 并 测试 (generate-and-test) 柱状 搜索 (beam- 
search) ,其 中 若干 个 最 佳 当 前 假设 的 变 体 最 有 可 能 在 下 一 步 被 考虑 。GA 的 普及 和 发 展 得 益 
于 以 下 因素 : 

o 在 生物 系统 中 ,进化 被 认为 是 一 种 成 功 的 自 适应 方法 , 且 具 有 很 好 的 健壮 性 。 

© GA 搜索 的 假设 空间 中 ,假设 的 各 个 部 分 相互 作用 ,每 一 部 分 对 总 的 假设 适应 度 的 影响 

难以 建 模 。 

© 遗传 算法 易于 并 行 化 , 且 可 降低 由 于 使 用 超 强 计 算 机 硬件 所 带 来 的 昂贵 费用 。 

这 一 章 描述 了 遗传 算法 ,举例 演示 了 它 的 用 法 ,分 析 了 它 搜 索 的 假设 空间 的 特性 。 本 章 也 
描述 了 它 的 一 个 变 体 , 称 为 遗传 编程 。 在 这 种 方法 中 ,整个 计算 机 程序 向 着 某 个 适应 度 准 则 进 
化 。 遗 传 算法 和 遗传 编程 是 进化 计算 (evolutionary computation) 领域 中 的 两 种 普遍 方法 。 在 
本 章 的 最 后 一 节 我 们 将 接触 一 些 研究 生物 进化 的 课题 ,包括 鲍德温 效应 (Baldwin effect) , 它 描 
述 了 个 体 的 学 习 能 力 与 整个 群体 进化 速度 之 间 的 相互 作用 。 


9.2 遗传 算法 


GA 研究 的 问题 是 搜索 候选 假设 空间 并 确定 最 佳 的 假设 。 在 GA 中 ,最 佳 假设 被 定义 为 
是 使 适应 度 (fitness) 最 优 的 假设 ,适应 度 是 为 当前 问题 预先 定义 的 数字 度量 。 例 如 ,如 果 学 习 
任务 是 在 给 定 一 个 未 知 函 数 的 输入 输出 训练 样 例 后 逼近 这 个 函数 ,那么 适应 度 可 被 定义 为 假 
设 在 训练 数据 上 的 精度 。 如 果 任 务 是 学 习 下 国际 象棋 的 策略 ,那么 适应 度 可 被 定义 为 该 个 体 
在 当前 群体 中 与 其 他 个 体 对 弈 的 获胜 率 。 
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尽管 遗传 算法 的 不 同 实现 在 细节 上 有 所 不 同 ,但 它们 都 具有 以 下 的 共同 结构 :算法 迭代 更 
新 一 个 假设 池 , 这 个 假设 池 称 为 群体 。 在 每 一 次 迭代 中 ,根据 适应 度 函数 评估 群体 中 的 所 有 成 
A ,然后 从 当前 群体 中 用 概率 方法 选取 适应 度 最 高 的 个 体 产 生 新 一 代 群 体 。 在 这 些 被 选中 的 
个 体 中 ,一 部 分 保持 原样 地 进入 下 一 代 群 体 ,其 他 的 被 用 作 产生 后 代 个 体 的 基础 ,其 中 应 用 像 
交叉 和 变异 这 样 的 遗传 方法 。 

表 9-1 描述 了 遗传 算法 原型 。 算 法 的 输 和 人 包括 :用 来 排序 候选 假设 的 适应 度 函 数 ;定义 算 
法 终止 时 适应 度 的 阔 值 ;要 维持 的 群体 大 小 ;决定 如 何 产生 后 继 群 体 的 参数 , 即 每 一 代 群 体 中 
被 淘汰 的 比例 和 变异 率 。 

表 9-1 遗传 算法 原型 





CA( Fitness, Fitness _threshold, p, r, m) 

Fitness :适应 度 评分 函数 ,为 给 定 假设 赋予 一 个 评估 分 数 
Fitness _ threshold :指定 终止 判 据 的 阅 值 
p :群体 中 包含 的 假设 数量 
r: 每 一 步 中 通过 交叉 取代 群体 成 员 的 比例 
m: 变 异 率 

o 初始 化 群体 : P<- 随 机 产生 的 p 个 假设 

全 评估 :对 于 P 中 的 每 一 个 ,计算 Fitness(h) 

(J 当 [ maxFitness(h) ] < Fitness _ threshold ,做 : 


产生 新 的 一 代 Ps: 


1. 选择 ;用 概率 方法 选择 P 的 (1 - r)p 个 成 员 加 入 Pso A P 中 选择 假设 hh 的 概率 Pr(h;) 用 下 面 公式 
计算 : 
Fitness( h;) 
Pr(h,) = Se 
(hi) Dap. Fitness (h;) 


. 交叉 :根据 上 面 给 出 的 Pr(h;) JA 已 中 按 概 率 选择 "' p/2 对 假设 。 对 于 每 对 假设 < hy, ho > ,应 用 
交叉 算 子 产生 两 个 后 代 。 把 所 有 的 后 代 加 和 Ps 
. 变异 ;使 用 均匀 的 概率 从 Ps 中 选择 m% 的 成 员 。 对 于 选 出 的 每 个 成 员 ,在 它 的 表示 中 随机 选择 一 个 
位 取 反 
4. 更 新 : PPs 
5. 评估 :对 于 P 中 的 每 个 h 计算 Fitness(h) 
@ 从 P 中 返回 适应 度 最 高 的 假设 


N 


v 





注 : 算法 中 维持 一 个 包含 p HARKE, BE-KERP BAH Ps 通过 根据 假设 的 适应 度 用 概率 方法 选择 个 
体 和 加 入 新 假设 形成 。 新 假设 通过 两 种 方法 得 到 :一 种 是 对 最 高 适应 度假 设 用 交叉 算 子 ; 另 一 种 是 通过 创建 部 分 
假设 的 单 点 变异 来 产生 新 一 代 。 重 复 这 个 选 代 过 程 ,直到 发 现 迄 应 度 足 够 好 的 假设 。 典 型 的 交叉 和 变异 算 子 定义 
在 后 面 的 表格 中 。 


在 这 个 算法 的 每 一 次 迭代 中 ,基于 当前 的 群体 产生 新 一 代 假设 。 首 先 ,从 当前 的 群体 中 选 
择 一 定数 量 的 假设 包含 在 下 一 代 中 。 这 些 假设 是 用 概率 方法 选择 的 ,其 中 选择 假设 h 的 概率 
是 通过 下 式 计 算 的 : 


Pr(h;) = 
rt Du, „Fitness (hj) 
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因此 ,一 个 假设 被 选择 的 概率 与 它 自己 的 适应 度 成 正比 ,与 当前 群体 中 其 他 竞争 假设 的 适 
应 度 成 反比 。 

在 当前 这 一 代 的 成 员 已 被 选 人 下 一 代 群 体 后 ,使 用 一 种 交叉 操作 产生 其 他 的 成 员 。 交 又 
操作 将 在 下 一 节 被 具体 定义 , 它 从 当前 代 中 取 两 个 双亲 假设 ,并 通过 重新 组 合 双 亲 的 各 部 分 产 
生 两 个 后 代 假设 。 双 亲 假 设 是 从 当前 群体 中 按 概率 选 出 的 ,也 使 用 公式 (9.1) 的 概率 函数 。 在 
通过 这 种 交叉 操作 产生 新 的 成 员 后 ,新 一 代 群 体 已 经 包含 了 所 需 数量 的 成 员 , 接 下 来 ,从 这 些 
成 员 中 随机 选 出 一 定 比 例 m 的 成 员 并 进行 随机 变异 。 

因此 ,这 种 GA 算法 执行 一 种 随机 的 、 并 行 柱状 的 搜索 ,根据 适应 度 函 数 发 现 好 的 假设 。 
下 面 的 小 节 将 更 详尽 地 描述 这 个 算法 中 使 用 的 假设 表示 和 遗传 算 子 。 


9.2.1 表示 假设 


GA 中 假设 经 常 被 表示 为 二 进 制 位 串 , 这 便于 用 变异 和 交叉 遗传 算 子 来 操作 。 用 这 样 的 
位 串 表 示 的 假设 可 能 非常 复杂 。 例 如 ,fthen 规则 就 可 以 很 容易 地 用 这 种 方式 表示 ,做 法 是 选 
择 规则 的 一 种 编码 ,其 中 为 每 个 规则 的 前 件 和 后 件 分 配 特 定 的 子 串 。Holland(1986) , Grefen- 
stette( 1988) „DeJong et al.(1993) 中 描述 了 GA 系统 中 这 种 规则 表示 的 例子 。 

为 了 说 明 如 何 把 if-then 规则 编码 成 位 串 ,首先 考虑 怎样 使 用 位 串 描述 单个 属性 的 值 约 
束 。 例 如 考虑 属性 Outlook , 它 的 值 可 以 取 以 下 3 个 值 中 的 任 一 个 : Sunny、 Overcast 或 Rain。 
表示 Outlook 约束 的 一 个 明显 的 方法 是 ,使 用 一 个 长 度 为 3 的 位 串 , 每 位 对 应 一 个 可 能 值 。 若 
某 位 为 1, 表 示 这 个 属性 可 以 取 对 应 的 值 。 例 如 , 串 010 表示 Outlook 必须 取 第 二 个 值 的 约束 ， 
或 者 说 Outlook = Overcast. SERW, $ 011 表示 更 一 般 的 约束 , Outlook 可 以 取 两 个 可 能 
值 ,或 者 说 ( Outlook = Overcast V Rain), 注意 ,111 表示 最 一 般 的 约束 ,表明 我 们 不 管 这 个 
属性 取 哪 个 值 。 

有 了 表示 单个 属性 约束 的 方法 ,那么 对 多 个 属性 约束 的 合 取 可 以 很 容易 地 表示 为 对 应 位 
串 的 连接 。 例 如 ,考虑 第 二 个 属性 Wind, 它 可 以 取 两 个 值 Strong 或 Weak。 那 么 像 下 面 的 规 
则 前 件 : 

(Outlook = Overcast V Rain) A (Wind = Strong) 

可 被 表示 为 长 度 为 5 的 位 串 : 

Outlook Wind 


011 10 

规则 的 后 件 ( 例 如 , PlayTennis = yes) 可 以 用 相似 的 方式 表示 。 于 是 ,整个 规则 表示 可 以 

通过 把 描述 规则 前 件 和 后 件 的 位 串 连 接 起 来 。 例 如 下 面 的 规则 : 
IF Wind = Strong THEN PlayTennis = yes 
将 被 表示 为 以 下 的 位 串 : 
Outlook Wind PlayTennis 
111 10 10 

其 中 ,前 三 位 描述 了 对 Outlook 的 “不 关心 "约束 , 接 下 来 两 位 描述 了 对 Wind 的 约束 ,最 
后 两 位 描述 了 规则 的 后 件 ( 这 里 假定 PlayTennis 可 以 取 两 个 值 Yes 或 No)。 注 意 ,表示 规则 的 
位 串 对 假设 空间 中 的 每 个 属性 有 一 个 子 串 ,即使 该 属性 不 被 规则 的 前 件 所 约束 。 这 样 得 到 了 





782 HEFT 








一 个 固定 长 度 的 规则 位 串 表示 ,其 中 特定 位 置 的 子 串 描述 对 特定 属性 的 约束 。 有 了 单个 规则 

的 表示 方法 ,我们 可 以 简单 地 把 单个 规则 的 位 串 表 示 连 接 起 来 表示 规则 集 。 

在 为 某 个 假设 空间 设计 位 串 编码 时 ， 有 必要 让 每 个 句法 合法 的 位 串 表示 一 个 有 意义 的 假 
设 。 比 如 , 若 使 用 上 一 段 的 规则 编码 方式 ,那么 位 串 111 10 11 表示 了 一 个 规则 , 它 的 后 件 不 约 
REMTE Play7ennis 。 如 果 要 避免 考虑 这 个 假设 ,可 以 采用 不 同 的 编码 方式 (例如 , 仅 分 配 
一 个 位 给 后 件 PlayTennis ,表示 它 的 值 是 Yes 或 No ) ,或 改变 遗传 算 子 以 明确 避免 建立 这 样 的 
位 串 ,或 干脆 把 很 低 的 适应 度 赋 给 这 样 的 串 。 

在 一 些 GA 中 ,假设 是 用 符号 描述 来 表示 的 ,而 不 是 用 位 串 。 例 如 ,在 第 9.5 节 中 ,我 们 讨 
论 了 一 个 把 假设 编码 为 计算 机 程序 的 遗传 算法 。 


9.2.2 WERF 


在 GA 中 通过 一 系列 算 子 (operator) 来 决定 后 代 , 算 子 对 当前 群体 中 选 定 的 成 员 进 行 重组 
和 变异 。 表 9-1 中 列 出 了 用 来 操作 位 串 的 典型 GA 算 子 。 这 些 算 子 是 生物 进化 中 的 遗传 过 程 
的 理想 化 形式 。 最 常见 的 两 个 算 子 是 交叉 (crossover) 和 变异 (mutation)。 

交叉 算 子 从 两 个 双亲 串 中 通过 复制 选 定位 产生 两 个 新 的 后 代 。 每 个 后 代 的 第 1 位 是 从 它 
的 某 个 双亲 的 第 i 位 复制 来 的 。 至 于 双亲 中 的 哪 一 个 在 第 i 位 起 作用 ,这 是 由 另外 一 个 称 为 
ZLK A (crossover mask) 的 位 串 决 定 的 。 下 面 演示 一 下 这 个 过 程 ,考虑 表 9-2 中 最 上 边 的 单 
点 (single-point) 交 叉 算 子 。 先 考虑 其 中 上 面 一 个 后 代 。 这 个 后 代 从 第 一 个 双亲 中 取 前 5 位 ， 
其 余 的 6 位 来 自 第 二 个 双亲 ,因为 交叉 掩 码 11111000000 为 每 个 位 指定 这 些 选 择 。 第 二 个 后 
代 使 用 同样 的 交叉 掩 码 ,但 交换 了 双亲 的 角色 。 所 以 , 它 包 含 了 第 一 个 后 代 没 有 用 过 的 位 。 在 
单 点 交叉 中 ,交叉 掩 码 总 是 这 样 组 成 的 , 它 以 连续 的 ”个 1 开始 ,后 面 跟随 必要 个 数 的 0 直至 
结束 。 这 样 的 结果 是 后 代 中 前 n 位 来 自 第 一 个 双亲 ,余下 的 位 来 自 第 二 个 双亲 。 每 次 应 用 单 
点 交叉 算 子 时 ,交叉 点 n 是 随机 选取 的 ,然后 再 产生 交叉 掩 码 并 应 用 。 

在 两 点 交叉 (two-point crossover) 中 ,后 代 的 产生 通过 把 一 个 双亲 串 的 中 间 片 段 蔡 换 第 二 
个 双亲 串 的 中 间 片 段 。 换 句 话 讲 , 交 又 掩 码 以 no 个 0 开始 ,后 面 跟 随 n 个 1 ,再 跟随 必要 数 
量 的 0 结束。 每 次 应 用 两 点 交叉 算 子 时 ,通过 随机 选取 两 个 整数 ao 和 mi 来 产生 掩 码 。 例 
如 ,在 表 9-2 显示 的 例子 中 ,是 使 用 no。=2 和 ni = 5 的 掩 码 来 产生 后 代 的。 和 上 面 一 样 ,通过 
转换 两 个 双亲 的 角色 来 产生 这 两 个 后 代 。 

均匀 交叉 (uniform crossover) 合 并 了 从 两 个 双亲 以 均匀 概率 抽取 的 位 ,如 表 9-2 所 示 。 在 
这 种 情况 下 ,产生 一 个 随机 的 位 串 作 为 交叉 掩 码 ,每 一 位 的 选取 都 是 随机 的 并 且 独 立 于 其 他 
位 。 

除了 通过 组 合 双亲 的 各 部 分 产生 后 代 的 重组 算 子 , 另 一 种 类 型 的 算 子 从 单一 的 双亲 产生 
后 代 。 确 切 地 讲 ,变异 算 子 用 于 对 位 串 产 生 随机 的 小 变化 ,方法 是 选取 一 个 位 ,然后 取 反 。 变 
异 经 常 是 在 应 用 了 交叉 之 后 进行 的 , 像 表 9-1 中 的 原型 算法 那样 。 

一 些 GA 系统 应 用 了 其 他 的 算 子 ,特别 是 一 些 专 门 针 对 系统 中 特定 假设 表示 的 算 子 。 例 
如 ,Grefenstette et al.(1991) 描 述 了 学 习 机 器 人 控制 规则 集 的 系统 。 它 除了 使 用 变异 和 交叉 算 
子 , 还 使 用 了 一 个 使 规则 特 化 的 算 子 。Janikow(1993) 描 述 了 学 习 规则 集 的 系统 。 它 使 用 了 多 
种 直接 泛 化 和 特 化 规则 的 算 子 (例如 ,直接 把 一 个 属性 条 件 替换 为 “不 关心 ”)。 
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表 9-2 遗传 算法 常见 算 子 


初始 申 FXG BR 
BRS: 
11101001000 11144 11101010101 
00001010101 ) < 00001001000 
PAX: 


11001011000 


11101001000 ` 00111110000 < 
00001010101 00101000101 


BER: 
11101001 
11191001000 10011010011 10001000100 
00001010101 > < 01101011001 
点 变异 : 44101001000 -~ 。 11101011000 


注 ; 这 些 算 子 形成 用 位 事 表 示 的 假设 后 代 。 交 义 算 子 从 两 个 双 训 中 产生 两 个 后 代 , 使 用 交叉 掩 码 来 决定 哪 一 个 双亲 作 
用 于 相应 的 位 。 变 异 从 单一 的 双 素 中 产生 单一 的 后 代 , 通 过 随机 选取 一 位 并 取 反 。 


9.2.3 适应 度 函 数 和 假设 选择 


适应 度 函 数 定义 了 候选 假设 的 排序 准则 ,并 且 是 以 概率 方法 选择 下 一 代 群 体 的 准则 。 如 
果 任 务 是 学 习 分 类 的 规则 ,那么 适应 度 函 数 中 会 有 一 项 用 来 评价 每 个 规则 对 训练 样 例 集 合 的 
分 类 精度 。 适 应 度 函 数 中 也 可 能 包含 其 他 的 准则 ,例如 ,规则 的 复杂 度 和 一 般 性 (generality ) 。 
一 般 讲 , 当 位 串 被 解释 为 复杂 的 过 程 时 (例如 , 当 位 串 表 示 一 系列 规则 ,这 些 规 则 要 被 链接 在 一 
起 控制 一 个 机 器 人 设备 ) ,适应 度 沙 数 可 以 测量 生成 的 过 程 总 体 性 能 ,而 不 是 单个 规则 的 性 
能 。 

FER 9-1 中 显示 的 GA 原型 中 ,选择 某 假设 的 概率 是 通过 这 个 假设 的 适应 度 与 当前 群体 
中 其 他 成 员 的 适应 度 的 比值 得 到 的 ,如 公式 (9.1) 所 示 。 这 种 方法 有 时 被 称 为 适应 度 比例 选择 
(fitness proportionate selection) ,或 称 为 轮 盘 赌 23 选 择 (roulette wheel selection)。 人 们 也 提出 了 
其 他 使 用 适应 度 来 选择 假设 的 方法 。 例 如 ,锦标 赛 选择 (tournament selection)。 它 先 从 当前 群 
体 中 糊 机 选取 两 个 假设 ,再 按照 事先 定义 的 概率 p 选择 适应 度 较 高 的 假设 ,按照 概率 1- p 选 
择 适 应 度 较 低 的 假设 。 锦 标 赛 选择 常常 比 适应 度 比 例 法 得 到 更 加 多 样 化 的 群体 (Goldberg and 
Deb 1991)。 在 另 一 种 被 称 为 排序 选择 (rank seleetion) 的 方法 中 ,当前 群体 中 的 假设 先 按 适应 
度 排序 , 某 假设 的 概率 与 这 个 假设 在 排序 列表 中 的 位 置 成 比例 ,而 不 是 与 它 的 适应 度 成 比例 。 


O 、 轮 盘 赌 是 指 一 种 赌博 者 打 赂 转盘 上 旋转 的 小 球 将 停止 于 盘 上 哪 一 个 村 内 的 游戏 ,这 里 的 合 义 是 概率 大 的 假设 占据 
盘 上 较 大 的 遍 区 ,因而 被 选中 的 机 会 较 大 。 
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9.3 举例 


遗传 算法 可 以 被 看 作 是 通用 的 最 优化 方法 , 它 搜索 一 个 巨大 的 候选 对 象 空间 ,根据 适应 度 
函数 查找 表现 最 好 的 对 象 。 尽 管 不 保证 发 现 最 优 的 对 象 ,但 GA 经 常 成 功 地 发 现 具 有 较 高 适 
应 度 的 对 象 。GA 已 经 被 应 用 到 机 器 学 习 以 外 的 大 量 最 优化 问题 , 像 电路 布线 和 任务 调度 。 
在 机 器 学 习 领 域 ,GA 不 仅 被 应 用 到 函数 逼近 问题 ,还 应 用 到 像 选取 人 工 神经 网 络 的 拓扑 结构 
这 样 的 任务 。 

为 了 说 明 GA 在 概念 学 习 方面 的 应 用 ,我 们 简要 概述 一 下 DeJong et al. (1993) 的 GABIL 
系统 。GABIL 使 用 GA 来 学 习 以 命题 规则 的 析 取 集合 表示 的 布尔 概念 。 在 对 几 个 概念 学 习 
问题 的 实验 中 发 现 ,在 泛 化 精度 方面 GABIL 与 其 他 的 学 习 算法 大 体 相当 ,这 里 的 其 他 算法 包 
括 决 策 树 学 习 算 法 C4.5 和 规则 学 习 系 统 AQ14。 这 个 研究 中 的 学 习 任务 既 有 人 为 设计 的 用 
来 研究 系统 泛 化 精度 的 学 习 任 务 ,又 有 乳腺 瘤 诊 断 这 样 的 现实 问题 。 

GABIL 使 用 的 算法 就 是 表 9-1 中 描述 的 算法 。 在 DeJong et al. (1993) 的 实验 报告 中 , 决 
定 了 父 代 中 被 交叉 替换 的 比例 的 参数 > 被 设置 为 0.06 ,决定 变异 率 的 参数 m 被 设置 为 0.001。 
这 是 这 些 参数 的 典型 设置 。 群 体 大 小 p 从 100 到 1000 不 等 , 视 特 定 学 习 任务 而 定 。 

GA 在 GABIL 中 的 具体 应 用 可 以 被 概括 为 以 下 几 点 : 

exam FE GABIL 中 每 个 假设 对 应 于 一 个 命题 规则 的 析 取 和 集 ,并 按照 9.2.1 节 描 述 的 方 
法 编码 。 确 切 地 讲 , 规 则 前 件 的 假设 空间 由 对 一 个 固定 的 属性 集 的 约束 的 合 取 组 成 ,就 像 前 面 
描述 的 那样 。 为 了 表示 规则 集 ,单个 规则 的 位 串 表示 被 连接 起 来 。 例 如 ,考虑 这 样 一 个 假设 空 
间 ,其 中 规则 的 前 件 是 对 两 个 布尔 属性 al 和 a2 的 约束 的 合 取 。 规 则 的 后 件 是 用 单个 的 位 描 
述 的 ,表示 目标 属性 。 的 预测 值 。 于 是 ,由 两 个 规则 组 成 的 假设 如 下 : 

IF ao=TAa=F THEN c= T; IF a, = T THEN c = F 

将 被 表示 为 串 : 

ay, a2 c ay a2 C 
10 0 1 11 10 0 

注意 ,位 串 的 长 度 随 着 假设 中 规则 的 数量 增长 。 由 于 位 串 长 度 的 可 变性 ,需要 对 交叉 算 子 
作 少 许 修改 ,这 将 在 下 面 描述 。 

o 遗传 算 子 GABIL 使 用 表 9-2 中 的 标准 变异 算 子 ,随机 选取 一 个 位 ,并 用 它 的 反 码 替代 
这 一 位 。GABIL 使 用 的 交叉 算 子 是 表 9-2 描述 的 两 点 交叉 算 子 的 一 个 相当 标准 的 扩展 。 确 
切 地 讲 , 为 了 适应 编码 规则 集 的 位 串 的 长 度 可 变性 ,并 且 限 制 系统 以 使 交叉 仅 发 生 在 位 串 的 相 
似 片段 间 , 采 取 了 下 面 的 办 法 。 首 先 ,在 第 一 个 双亲 串 上 随机 选取 两 个 交叉 点 ,它们 之 间 划 分 
出 了 一 个 位 串 片段 。 由 于 位 串 表示 的 是 一 个 规则 集 ,我 们 可 以 标记 出 其 中 每 个 规则 的 边界 。 
这 个 位 串 片 段 可 能 跨越 若干 个 规则 边界 。 然 后 , 令 di 表示 片段 的 最 左 一 位 到 它 左 侧 第 一 个 
规则 边界 的 距离 。 d, 表示 片段 的 最 右 一 位 到 它 左 侧 第 一 个 规则 边界 的 距离 。 接 下 来 ,在 第 二 
个 双亲 上 随机 选取 交叉 点 ,要 求 选择 的 交叉 点 具有 同样 的 di 和 d, 值 。 例 如 ,如 果 两 个 双亲 
PE: 

al ax c al a2 c 


hı: 10 O1 1 11 10 0 
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和 
ay a2 c a, a € 
ha: O1 11 0 10 01 0 
并 且 为 第 一 个 双亲 选取 交叉 点 位 置 是 第 1 和 第 8 位 ,如 下 所 示 : 
a, a2 c a, a c 
hı: 1[0 01 1 11 1]J0 0 


其 中 ,“[” 和 “]” 表 示 交 叉 点 ,那么 di = 1 并 且 d = 3。 所 以 ,允许 选取 的 第 二 个 双亲 交叉 
点 的 位 置 有 《1, 3)、《1, 8) 和 《6, 8)。 如 果 恰 巧 选取 了 (1,3): 
a a. c al a2 c 
ho: Ol 1]1 0 10 01 0 
那么 结果 生成 的 两 个 后 代 是 : 
a, @ c 
hj: 11 10 0 
和 
a, @ € ai CI c a, CC2 £ 
ha: 00 O1 1 li 11 0 10 O01 0 

如 此 例 所 示 ,这 种 交叉 方法 中 后 代 可 以 包含 与 双亲 不 同 数量 的 规则 ,同时 保证 了 按 这 种 方 
式 产 生 的 位 串 表示 良 定义 的 (well-defined) 规 则 集 。 

o 适应 度 函 数 ”每 个 规则 集 的 适应 度 是 根据 它 在 训练 数据 上 的 分 类 精度 计算 的 。 确 切 地 
讲 ,度量 适应 度 的 函数 是 : 

Fitness(h) = (correct(h))? 

Hp, correct (4) 是 假设 分 类 所 有 训练 样 例 的 正确 率 。 

在 比较 GABIL 和 像 C4.5 和 ID5R 这 样 的 决策 树 学 习 算法 以 及 规则 学 习 算法 AQ14 的 实 
验 中 ,根据 对 不 同学 习 任务 的 测试 , DeJong et al.(1993) 报 告 了 这 些 系统 具有 大 体 相 当 的 性 能 。 
例如 ,对 人 为 设计 的 12 个 问题 ,GABIL 达到 了 92.1% 的 平均 泛 化 精度 ,而 其 他 系统 的 性 能 在 
91.2% ~96.6% 之 间 。 


扩展 


DeJong et al.(1993) 中 也 探索 了 对 GABIL 基本 设计 的 两 个 有 趣 的 扩展 。 在 一 组 实验 中 ， 
他 们 研究 了 另外 两 个 新 的 遗传 算 子 ,这 两 个 算 子 受到 了 很 多 符号 学 习 方法 中 常见 的 泛 化 算 子 
的 启发 。 第 一 个 算 子 为 AddAlternative , 它 泛 化 对 某 个 特定 属性 的 约束 ,方法 是 把 这 个 属性 对 
应 的 子 串 中 的 一 个 0 改 为 1。 例 如 ,如 果 一 个 属性 的 约束 使 用 串 10010 表示 ,那么 这 个 算 子 可 
能 把 它 改 为 10110。 这 个 算 子 在 每 一 代 群 体 中 对 选 定 的 成 员 按 照 0.01 的 概率 应 用 。 第 二 个 
算 子 为 DropCondition , 它 采 用 一 种 更 加 极端 的 泛 化 措施 ,把 一 个 特定 属性 的 所 有 位 都 替换 为 
1。 这 个 算 子 相当 于 通过 完全 撤销 属性 约束 来 泛 化 规则 , 它 按照 概率 0. 60 在 每 一 代 中 应 用 。 
DeJong et al.(1993) 中 报告 了 这 个 改进 的 系统 对 于 上 面 所 说 的 人 为 设计 任务 达到 了 95.2% 的 
平均 泛 化 精度 ,而 基本 的 GA 为 92.1% 。 

在 上 面 的 实验 中 ,两 个 算 子 对 每 一 代 群 体 中 的 每 个 假设 是 以 同样 的 概率 应 用 的 。 在 另 一 
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个 实验 中 ,对 假设 的 位 串 表 示 进 行 了 扩展 ,使 其 包含 另外 两 位 以 决定 是 否 可 以 对 该 假设 应 用 这 
两 个 算 子 。 在 这 个 扩展 的 表示 中 ,一 个 典型 的 规则 集 假 设 的 位 串 为 : 

a, @ c ai a2 c AA DC 

01 11 0 10 01 0 1 0 

其 中 ,最 后 的 两 位 表示 在 这 种 情况 下 可 以 对 该 串 应 用 AddAlternative 算 子 ,而 不 可 以 应 

用 DropCondition 算 子 。 这 两 个 新 的 位 定义 了 部 分 的 GA 搜索 策略 ,而 且 它 们 本 身 也 和 串 中 
的 其 他 位 一 起 被 同样 的 交叉 和 变异 算 子 修改 和 进化 。DeJong et al. (1993) 报 告 了 这 种 方法 的 
结果 优 劣 参半 (也 就 是 对 某 些 问 题 提 高 了 性 能 ,对 其 他 问题 降低 了 性 能 ) , 它 描 述 了 GA 在 原则 
上 是 如 何 使 搜索 假设 的 方法 进化 的 。 


9.4 假设 空间 搜索 


如 上 所 示 ,GA 采用 一 种 随机 化 的 柱状 搜索 来 寻找 最 大 适应 度 的 假设 。 这 种 搜索 与 本 书 
中 已 考虑 的 其 他 学 习 方法 的 搜索 完全 不 同 。 例 如 , 比较 GA 使 用 的 搜索 空间 和 神经 网 络 反 向 
传播 算法 使 用 的 搜索 空间 :在 反 向 传播 算法 中 ,梯度 下 降 搜索 从 一 个 假设 平滑 移动 到 一 个 非常 
相似 的 新 假设 。 与 此 不 同 ,GA 搜索 的 移动 可 能 非常 突然 ,使 用 和 双亲 根本 不 同 的 后 代替 换 双 
亲 假设 。 注 意 , GA 搜索 因此 不 太 可 能 像 梯 度 下 降 方法 那样 具有 陷 人 局 部 最 小 值 的 问题 。 

在 一 些 GA 应 用 中 ,一 个 实践 上 的 难题 是 拥挤 (crowding) 问 题 。 拥 挤 是 这 样 一 种 现象 , 群 
体 中 某 个 体 适 应 度 大 大 高 于 其 他 个 体 ,因此 它 迅 速 繁殖 ,以 至 于 此 个 体 和 与 它 相似 的 个 体 占据 
了 群体 的 绝 大 部 分 。 拥 挤 的 不 良 影响 是 降低 了 群体 的 多 样 性 (diversity) ,从 而 减 慢 了 GA 的 进 
一 步 进 化 。 人 们 已 经 探索 了 若干 降低 拥挤 的 策略 。 第 一 种 方法 是 修改 选择 函数 ,使 用 像 锦标 
赛 选 择 或 排序 选择 这 样 的 准则 取代 适应 度 比 例 轮 盘 赌 选择 。 第 二 种 方法 是 “适应 度 共 享 ” 
(fitness sharing) ,其 中 根据 群体 中 与 某 个 体 相 似 的 个 体 数 量 , 减 小 该 个 体 的 适应 度 。 第 三 种 方 
法 是 对 可 重组 生成 后 代 的 个 体 种 类 进行 限制 。 例 如 ,通过 只 允许 最 相似 的 个 体重 组 ,可 以 在 群 
体 中 促成 相似 的 个 体 聚 类 ,或 多 个 亚 种 (subspecies)。 一 种 相关 的 方法 是 按 空间 分 布 个 体 ,并 
且 仅 允许 相 邻 的 个 体重 组 。 这 些 技术 很 多 都 受到 了 生物 进化 的 启示 。 


群体 进化 和 模式 理论 


不 妨 思考 一 个 有 趣 的 问题 :是 否 能 用 数学 的 方法 刻画 GA 中 群体 随时 间 进 化 的 过 程 ? 
Holland(1975) 的 模式 原理 (schema theorem) 提 供 了 一 种 刻画 方法 。 它 基于 描述 位 串 集合 的 模 
A (schema 或 pattern)。 精 确 地 讲 , 一 个 模式 是 由 若干 0、1 和 * 组 成 的 任意 串 。“* "表示 一 个 
不 关心 的 位 。 例 如 模式 0 * 10 表示 的 位 串 集 合 中 只 包含 0010 和 0110. 

单个 位 串 可 以 被 看 作 与 它 匹 配 的 每 个 模式 的 代表 。 例 如 ,位 串 0010 可 以 被 认为 是 2 个 
相 异 模式 的 代表 ,例如 00* * ,0* 10, * * x * 等 。 类 似 地 ,一 个 位 串 的 群体 可 以 被 看 作 是 位 
串 所 代表 的 模式 的 集合 以 及 与 每 个 模式 关联 的 个 体 数量 。 

模式 理论 根据 每 个 模式 的 实例 数量 来 刻画 GA 中 群体 的 进化 。 令 m(s，:) 表 示 群 体 中 的 
模式 s 在 时 间 !( 也 就 是 在 第 : 代 期 间 ) 的 实例 数量 。 模 式 理论 根据 m(s, OIRR BAR 
CA 参数 的 其 他 属性 来 描述 m(s，: + 1) 的 期 望 值 。 

GA 中 群体 的 进化 依赖 子 几 个 步 又 , 即 选择 步 . 重 组 步 和 变异 步 。 先 从 只 考虑 选择 步 的 影响 
开始 。 使 用 SORRA h 的 适应 度 ,并 用 f(:) 表 示 在 时 间 上 群体 中 所 有 个 体 的 平均 适 
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应 度 。 设 n 为 群体 中 个 体 的 总 数量 。 使 用 h Es) p 表示 个 体 h BERR s 的 一 个 代表 ,又 是 
时 间 上 群体 的 一 个 成 员 。 最 后 , 令 uls, it) 表 示 在 时 间 上 群体 中 模式 s 的 实例 的 平均 适应 度 。 
我 们 感 兴趣 的 是 m(s，i + 1) 的 期 望 值 ,用 El m(s，i + 1)] 来 表示 。 可 以 使 用 公式 (9. 1) 
中 给 出 的 概率 分 布 来 计算 El m (s,s +1)], 并 使 用 目前 的 符号 把 它 重 新 表示 成 如 下 形式 : 
flh) 
Di fhi) 


f) 
nf(t) 
现在 如 果 根 据 这 个 概率 分 布 选择 新 群体 的 一 个 成 员 ,那么 选 到 模式 s 的 一 个 代表 的 概率 
是 : 


Pr(h) = 


Pr(hEs) = 5 LY 
AE sp, nf(t) 
_ u(s,t) 
= nf(t) m(s,t) (9.2) 
上 面 的 第 二 步 根据 以 下 的 定义 得 到 : 
Dancap fh) 


u(s,t) = m(s, 1) 


公式 (9.2) 给 出 了 GA 选择 的 一 个 假设 是 模式 s 的 实例 的 概率 。 所 以 ,对 于 产生 整个 新 一 
代 的 n 次 独立 选择 步 ,得 到 的 :的 实例 的 期 望 数量 就 是 这 个 概率 的 n 售 。 
E[m(s, t+1)] = uy m(s, t) (9.3) 
公式 (9.3) 表 明 ,在 上 + 1 代 中 模式 * 的 实例 期 望 数量 与 这 个 模式 的 实例 在 时 间 上 内 的 平 
均 适 应 度 &(s，:) 成 正比 ,并 与 时 间 : 中 群体 的 所 有 成 员 的 平均 适应 度 f(:) 成 反比 。 因 此 ,我 
们 可 以 期 望 ,在 后 继 的 各 代 中 高 于 平均 适应 度 的 模式 出 现 频率 会 升 高 。 如 果 把 GA 看 作 在 对 
个 体 空间 进行 显 式 搜 索 的 同时 ,对 可 能 模式 空间 进行 着 虚拟 的 并 行 搜索 ,那么 公式 (9.3) 指 出 
适应 度 高 的 模式 的 影响 力 会 随 着 时 间 增 加 。 
然而 上 面 的 分 析 仅 考虑 GA 中 选择 步 的 影响 ,所 以 也 应 该 考虑 交叉 和 变异 步 的 影响 。 模 
式 理论 仅 考虑 这 些 算 子 可 能 造成 的 负面 影响 (例如 ,独立 于 u(s,:), 随 机 变异 可 能 降低 s 的 代 
RHR) ,并 且 仅 考虑 单 点 交叉 的 情况 。 所 以 完整 的 模式 理论 给 出 了 模式 s 的 期 望 频率 的 下 
界 ,如 下 所 示 : 
EmCe D] > et mls (1 = pe FE) = pa (9.4) 
XE, p。 是 对 任意 个 体 应 用 单 点 交叉 算 子 的 概率 , pn 是 对 任意 个 体 的 任意 位 使 用 变异 算 
子 进行 变异 的 概率 。o(s) 是 模式 s 中 确定 位 的 个 数 ,0 和 ! 是 确定 的 位 , * 不 是 。d(s) 是 模式 
s 中 最 左边 的 确定 位 和 最 右边 的 确定 位 间 的 距离 。 最 后 , ! 是 在 群体 中 个 体位 串 长 度 。 注 意 ， 
公式 (9.4) 中 的 最 左 一 项 与 公式 (9.3) 是 一 样 的 ,这 一 项 描述 了 选择 步 的 影响 。 中 间 一 项 描述 
了 单 点 交叉 算 子 的 影响 。 特 别 值得 注意 的 是 ,这 一 项 描述 了 代表 :的 任意 个 体 在 应 用 了 交叉 
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算 子 后 还 代表 s 的 概率 。 最 右 一 项 描述 了 代表 模式 s 的 任意 个 体 在 应 用 了 变异 算 子 后 还 代表 
s 的 概率 。 单 点 交叉 和 变异 的 影响 随 着 模式 中 确定 位 的 数量 o(s ) 和 确定 位 间 的 距离 d(s) 增 
长 。 因 此 ,模式 理论 可 以 被 粗略 地 解释 为 :适应 度 越 高 的 模式 的 影响 力 越 大 ,尤其 是 包含 较 少 
数量 的 确定 位 (也 就 是 包含 大 量 的 * ) 的 模式 和 这 些 确定 位 在 位 串 中 彼此 靠近 的 模式 。 

对 GA 中 的 群体 进化 过 程 ,模式 理论 可 能 是 被 引用 得 最 多 的 刻画 方式 。 它 不 完备 的 一 面 
是 无 法 考虑 交叉 和 变异 的 (大 概 的 ) 正 面 影响 。 最 近 人 们 已 经 提出 了 很 多 新 的 理论 分 析 , 包 括 
基于 马尔 可 夫 链 模型 ( Markov chain model) 和 统计 力学 模型 (statistical mechanics models) 的 分 
析 ,可 以 参见 Whitley & Vose(1995) 和 Mitchell( 1996). 


9.5 遗传 编程 


遗传 编程 (genetic programming, GP) 是 进化 计算 的 一 种 形式 ,其 中 进化 群体 中 的 个 体 是 计 
算 机 程序 而 不 是 位 串 。Koza(1992) 描 述 了 基本 的 遗传 编程 方法 并 且 给 出 了 很 多 简单 的 可 以 被 
GP 成 功 学 习 的 程序 。 


9.5.1 程序 表示 


GP 操作 的 程序 一 般 被 表示 为 程序 的 解析 (parse) 树 。 每 个 函数 调用 被 表示 为 树 的 一 个 节 
点 ,函数 的 参数 通过 它 的 子 结 点 给 出 。 例 如 ,图 9-1 画 出 了 函数 sin(x) +vV x2+y 的 树 表示 。 
为 了 应 用 遗传 编程 到 某 个 特定 的 领域 ,用 户 必 须 定 义 待考 虚 的 原子 函数 (primitive functions) 
(例如 ,sin、cos\ 开 方 、+ . — 、 指 数 ) 以 及 端点 (terminals)( 例 如, x.y 以 及 常数 )。 接 下 来 ,遗传 
编程 算法 使 用 进化 搜索 来 探索 这 些 使 用 原子 描述 的 程序 的 巨大 空间 。 


所 有 程序 都 可 以 用 它们 的 解析 树 来 表示 
9-1 遗传 编程 中 的 程序 树 表示 


与 在 遗传 算法 中 一 样 ,原型 的 遗传 编程 算法 维护 由 多 个 个 体 (在 这 里 是 程序 树 ) 组 成 的 群 
体 。 在 每 一 步 迭 代 中 , 它 使 用 选择 、 交 叉 和 变异 产生 新 一 代 个 体 。 群 体 中 某 个 体 程序 的 适应 度 
一 般 通 过 在 训练 数据 上 执行 这 个 程序 来 决定 。 交 叉 操作 是 这 样 进行 的 :在 一 个 双亲 程序 中 随 
机 选择 一 个 子 树 ,然后 用 另 一 个 双亲 的 子 树 替代 这 个 子 树 。 图 9-2 演示 了 一 个 典型 的 交叉 操作 。 

Koza(1992) 描 述 了 应 用 GP 到 多 个 任务 的 实验 。 在 他 的 实验 中 ,根据 适应 度 概率 选择 当 
前 群体 的 10% 不 加 改变 的 保留 到 下 一 代 。 再 根据 适应 度 概率 从 当前 群体 中 选择 程序 对 ,应 用 
交叉 操作 产生 新 一 代 的 其 余部 分 。 在 这 个 实验 系列 中 没有 使 用 变异 算 子 。 
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双亲 程序 树 显示 在 上 方 , 孩 子 树 在 下 方 。 交 叉 点 (上 边 加 粗 显 示 的 节点 ) 是 随机 选取 的 。 然 后 以 这 些 交叉 点 为 
| 根 的 子 树 互 换 以 产生 孩子 树 


图 9-2 对 两 个 双亲 程序 树 进行 交叉 操作 
9.5.2 举例 


Koza(1992) 给 出 了 一 个 示例 ,这 个 示例 要 求学 习 堆 砌 图 9-3 所 示 的 字 块 的 算法 。 这 个 任 
务 是 开发 一 个 通用 的 算法 来 把 字 块 堆 释 成 单个 栈 (stack) , 拼 出 单词 “universal” ,无 论 这 些 字 块 
初始 的 结构 如 何 。 可 执行 的 动作 是 每 次 只 允许 移动 一 个 字 块 。 确 切 地 讲 , 在 栈 中 最 上 面 的 字 
块 可 以 被 移 到 桌面 上 ,或 者 桌面 上 的 字 块 可 以 被 移动 到 栈 项 。 





fe] {vj ful Gy fal UL 
遗传 编程 的 任务 是 发 现 一 个 程序 ,可 以 把 有 任意 初始 结构 的 字 块 变换 成 一 个 栈 拼 出 单词 “universal 。 提 供 了 


166 种 初始 结构 来 评估 候选 程序 的 适应 度 (摘自 Koza 1992) 
图 9-3” 字 块 堆 倒 问题 


在 大 多 数 GP 应 用 中 ,问题 表示 方法 的 选择 对 于 顺利 地 解决 问题 起 着 非常 重要 的 作用 。 
在 Koza 的 设计 中 ,用 以 组 成 程序 的 原子 函数 包含 下 面 的 三 个 端点 参数 : 

© CS(current stack) : 当前 栈 , 指 栈 顶 字 块 的 名 字 ,在 没有 当前 栈 时 为 Fo 

© TB(top correct block) :最 顶 的 正确 字 块 , 指 该 字 块 和 它 以 下 的 字 块 均 为 正确 顺序 的 字 块 。 

© NN(next necessary) :下 一 个 所 需 字 块 , 指 为 了 拼 成 单词 “universal” , 栈 内 紧邻 TB 之 上 
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的 所 需 字 块 的 名 字 , 当 不 再 需要 字 块 时 为 Fo 
可 以 看 出 ,选择 这 样 的 端点 参数 对 于 描述 此 任务 的 字 块 操纵 程序 提供 了 一 种 自然 的 表示 。 
相反 ,设想 如 果 把 每 个 字 块 的 x 、y 坐标 定义 为 端点 参数 ,那么 要 实现 这 个 任务 相对 要 困难 得 
多 。 
除了 这 些 端点 参数 ,这 个 应 用 中 的 程序 语言 还 包括 下 面 的 原子 函数 : 
© (MS x)(move to stack) :移动 到 栈 。 如 果子 块 x 在 桌面 上 ,这 个 操作 把 x 移动 到 栈 顶 
并 且 返 回 7 ;否则 , 它 什 么 也 不 做 并 且 返 回 F- 
© (MT x)(move to table) :移动 到 桌面 。 如 果 字 块 x 是 在 栈 中 某 个 位 置 ,这 个 操作 把 栈 
顶 的 字 块 移动 到 桌面 并 且 返 回 了 ;否则 返回 Fo 
© (EQ x y)(equal) :相等 ,如 果 x 等 于 y 返回 7 了 ;否则 返回 F. 
@ (NOT x):WẸ x= FRET, WF x= TRE F., 
© (DU x y)(do until) :反复 执行 表达 式 x 直到 表达 式 y 返回 7。 
为 了 评估 任意 给 定 程 序 的 适应 度 , Koza 提供 了 166 个 训练 问题 ,表示 了 很 多 种 不 同 的 初 
始 字 块 结构 ,问题 的 难度 各 异 。 任 意 给 定 程序 的 适应 度 就 是 它 解决 了 的 训练 问题 的 数量 。 群 
体 被 初始 化 为 300 个 随机 程序 的 集合 。 经 过 了 10 代 后 ,系统 发 现 了 下 面 的 程序 解决 了 所 有 
166 个 问题 。 
(EQ (DU (MT CS) (NOT CS)) (DU (MS NN) (NOT NN))) 
注意 ,这 个 程序 包含 了 两 个 DU( 也 就 是 “Do Until” ) 语 名 的 序列 。 第 一 个 DU 语句 循环 地 
把 当前 的 栈 顶 字 块 移动 到 桌面 直到 把 栈 移 空 。 第 二 个 “Do Unti?”" 语 名 循环 地 把 下 一 个 所 需 字 
块 从 桌面 移动 到 栈 顶 。 这 里 最 外 层 的 EQ 表达 式 起 到 的 作用 是 提供 一 个 合法 的 句法 来 排列 这 
两 个 “Do Until” A. 
多 少 有 些 令 人 惊奇 ,仅仅 经 过 了 几 代 ,这 个 GP 就 发 现 了 能 解决 所 有 166 个 训练 问题 的 程 
序 。 系 统 的 这 个 能 力 很 大 程度 上 依赖 于 提供 的 基本 参数 和 原子 函数 以 及 用 来 评估 适应 度 的 训 
练 样 例 集合 。 


9.5.3 遗传 编程 说 明 


正如 上 面 的 例子 所 演示 的 ,遗传 编程 把 遗传 算法 扩展 到 对 完整 的 计算 机 程序 的 进化 。 尽 
管 它 必须 要 搜索 巨大 的 假设 空间 ,但 已 经 证 实在 相当 数量 的 应 用 中 遗传 编程 产生 了 令 人 着 迷 
的 结果 。0 ' Reilly and Oppacher(1994) 比 较 了 GP 算法 和 其 他 搜索 计算 机 程序 空间 的 算法 Bi 
W, NELLIE (hill cimbing) 和 模拟 退火 法 (simulated annealing)。 

当然 ,上 面 的 GP 算法 例子 是 相当 简单 的 ,Koza et al.(1996) 概 括 了 GP 算法 在 一 些 更 复杂 
的 任务 中 的 上 应用。 例如 ,设计 电子 滤波 电路 和 分 类 和 蛋白质 分 子 片段 。 滤 波 电路 设计 问题 提供 
了 一 个 相当 复杂 的 问题 。 这 里 ,程序 的 进化 是 从 简单 的 固定 种 子 电路 转变 为 最 终 的 电路 设计 。 
GP 算法 中 组 建 程序 的 原子 函数 通过 插入 或 删除 电路 零件 和 导线 连接 来 编辑 这 个 种 子 电路 。 
每 个 程序 的 适应 度 是 这 样 计算 的 : 先 模拟 这 个 电路 的 输出 (使 用 SPICE 电路 仿真 器 ) ,然后 看 
这 个 电路 与 期 望 的 设计 的 适应 度 的 差距 。 精 确 地 讲 , 适 应 度 分 值 是 对 于 101 个 不 同 的 输入 频 
率 ,计算 实际 电路 输出 和 期 望 电 路 输出 间 误 差 量 的 和 。 在 这 个 例子 中 ,维护 的 群体 大 小 是 
640.000 ,选择 产生 10% 的 后 代 群 体 ,交叉 产生 89% ,变异 产生 1% ,系统 是 在 一 台 64 节点 的 并 
行 处 理 机 上 执行 的 。 在 最 初 的 随机 产生 的 群体 中 ,电路 是 如 此 的 不 合理 以 至 于 98% 的 电路 行 
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为 无 法 被 SPICE 仿真 器 仿真 。 在 第 一 代 之 后 无 法 仿真 的 电路 的 百分比 下 降 到 84.9% ,第 二 代 
后 下 降 到 75.0% ,后 来 各 代 中 平均 下 降 到 9.6%。 在 初始 群体 中 ,电路 最 好 的 适应 度 分 值 是 
159。 与 此 相 比 ,20 代 后 分 值 是 39,137 代 后 分 值 是 0.8。137 代 后 的 最 佳 电路 达到 的 性 能 与 
要 求 的 非常 相近 。 

在 大 多 数 情 况 下 ,表示 方法 的 选择 和 适应 度 函 数 的 选择 对 遗传 编程 的 性 能 是 至 关 重 要 的 。 
由 于 这 个 原因 ,目前 研究 的 一 个 活 牙 领域 是 自动 发 现 和 合并 子 程序 ,改善 最 初 的 原子 函数 集 
合 ,从 而 允许 系统 动态 地 改变 用 以 构建 个 体 的 原子 。 例 如 ,可 以 参见 Koza(1994)。 


9.6 进化 和 学 习 模 型 


在 很 多 自然 系统 中 ,生物 个 体 在 它们 一 生 当中 都 在 学 习 如 何 更 好 地 适应 环境 。 同 时 ,生物 
和 社会 过 程 允许 它们 的 物种 在 一 个 包含 很 多 代 的 时 期 内 适应 环境 。 关 于 进化 系统 的 一 个 有 趣 
问题 是 :“ 单 一 个 体 生命 期 间 的 学 习 与 整个 物种 较 长 时 期 内 由 进化 促成 的 学 习 , 它 们 的 关系 是 
什么 ?”。 


9.6.1 拉 马 克 进 化 


科学 家 拉 马 克 (Lamarck) 在 19 世纪 末 提 出 ,多 代 的 进化 直接 受到 个 别 生物 体 在 它们 生命 
期 间 的 经 验 的 影响 。 确 切 地 讲 , 他 提出 个 别 生 物体 的 经 验 直接 影响 其 后 代 的 遗传 结构 :如 果 个 
体 在 生命 期 内 学 会 了 避 开 某 种 有 毒 食物 , 它 便 能 把 这 种 特征 遗传 给 它 的 后 代 。 这 是 一 个 很 吸 
引 人 的 猜想 ,因为 比 起 忽略 个 体 经 验 的 “生成 并 测试 ”( generate-and-test) 过 程 (如 在 GA 和 GP 
中 ), 它 可 能 获得 更 高 效 的 进化 过 程 。 尽 管 这 个 理论 很 有 吸引 力 , 但 目前 的 科学 证 据 与 拉 马 克 
模型 彻底 冲突 。 目 前 被 接受 的 观点 是 ,个 体 的 遗传 结构 事实 上 不 受 它 的 双亲 的 生存 经 验 的 影 
响 。 尽 管 这 是 明显 的 生物 学 上 的 事实 ,但 近来 的 计算 机 研究 已 经 表明 , 拉 马 克 过 程 有 时 可 以 提 
高 计算 机 遗传 算法 的 效率 (参见 Grefenstette 1991, Ackley & Littman 1994, Hart & Belew 
1995)。 


9.6.2 鲍德温 效应 


尽管 拉 马 克 进 化 模型 没有 被 生物 进化 过 程 所 接受 ,人 们 已 经 提出 了 其 他 的 机 制 ,通过 这 些 
机 制 个 体 学 习 可 以 改变 进化 过 程 。 其 中 一 种 被 称 为 鲍德温 效应 (Baldwin effect) ,是 根据 最 先 
提出 这 种 思想 的 了 M. Baldwin(1896) 的 作者 名 字 命名 的 。 鲍 德 温 效应 基于 以 下 现象 
© 如 果 一 个 物种 在 一 个 变化 的 环境 中 进化 ,那么 进化 的 压力 会 支持 有 学 习 能 力 的 个 体 。 
例如 ,如 果 在 进化 环境 中 出 现 了 一 个 新 的 捕食 者 ,那么 能 学 会 避 开 捕食 者 的 个 体会 比 不 
能 学 会 此 能 力 的 个 体 更 成 功 。 在 效果 上 ,这 种 学 习 的 能 力 可 以 使 个 体 在 其 生命 期 间 热 
行 一 种 小 的 局 部 搜索 ,以 最 大 化 它 的 适应 度 。 相 反 ,不 学 习 的 个 体 的 适应 度 完 全 取决 于 
它 的 遗传 结构 ,会 处 于 相对 的 劣势 。 
© 那些 能 够 学 习 很 多 特性 (trait) 的 个 体 ， 会 较 少 地 依赖 于 遗传 代码 来 硬性 地 规定 其 自身 
的 特性 。 结 果 ,这 些 个 体 可 以 依赖 个 体 学 习 克 服 遗 传代 码 中 的 “丢失 的 ”或 并非 最 优 
的 "特性 ,从 而 支持 更 加 多 样 化 的 基因 池 (gene pool)。 接 下 来 ,这 个 更 加 多 样 化 的 基因 
池 可 以 促进 适应 性 更 快速 地 进化 。 因 此 ， 个 体 的 学 习 能 力 具 有 间接 加 速 整个 群体 进化 
适应 的 作用 。 
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例如 ,设想 某 个 物种 的 环境 中 发 生 了 新 变化 ,比如 出 现 一 个 新 的 捕食 者 。 这 样 的 变化 会 有 
利于 能 学 会 避 开 捕食 者 的 个 体 。 随 着 群体 中 自我 提高 的 个 体 的 比例 的 增长 ,群体 会 支持 更 加 
多 样 化 的 基因 池 , 允许 进化 过 程 (即使 是 非 拉 马 克 的 “生成 并 测试 "过程 ) 适 应 得 更 快 。 接 下 来 ， 
这 种 加 速 的 适应 可 以 使 标准 的 进化 过 程 更 快 地 进化 出 一 种 遗传 特征 ( 非 学 到 的 特征 ) 来 避 开 捕 
食 者 (例如 ,一 种 对 捕食 者 的 本 能 惧怕 )。 因 此 鲍德温 效应 提供 了 一 种 间接 的 机 制 ,使 个 体 的 学 
习 可 以 正面 影响 进化 速度 。 通 过 提高 物种 的 生存 力 和 遗传 多 样 性 ,个 体 学 习 会 加 快 进化 进程 ， 
从 而 增加 这 个 物种 进化 出 更 好 地 适应 新 环境 的 遗传 特性 的 机 会 。 

人 们 一 直 努 力 开发 研究 鲍德温 效应 的 计算 模型 。 例 如 , Hinton & Nowlan(1987) 对 一 个 简 
单 神经 网 络 的 群体 进行 试验 ,在 一 个 网 络 个 体 的 “生命 期 ” 间 , 它 的 一 些 权 值 是 固定 的 ,而 其 他 
的 权 是 可 以 被 训练 的 。 这 个 个 体 的 遗传 结构 决定 了 哪些 权 值 是 可 以 被 训练 的 ,那些 是 固定 的 。 
在 实验 中 , 当 不 允许 个 体 学 习 时 ,群体 不 能 随 着 实践 提高 它 的 适应 度 。 然 而 , 当 人 允许 个 体 学 习 
时 ,群体 迅速 地 提高 它 的 适应 度 。 在 群体 进化 初期 的 各 代 中 ,具有 很 多 可 训练 权 值 的 个 体 占据 
较 大 的 比例 。 但 随 着 进化 的 进行 ,群体 向 着 遗传 给 定 权 值 和 较 少 依赖 个 体 学 习 权 值 的 方向 进 
化 ,正确 的 固定 权 值 的 数量 趋 于 增长 。Belew (1990) , Harvey (1993) Al French & Messinger 
(1994) 报 告 了 对 鲍德温 效应 的 其 他 计算 性 研究 。Mitchell(1996) 给 出 关于 这 个 主题 的 精彩 综 
述 。《 进 化 计算 》( Evolutionary Computation ) 杂 志 的 一 期 特刊 (Turney et al. 1997) 包 含 了 几 篇 
有 关 鲍 德 温 效 应 的 文章 。 


9.7 ”并行 遗 传 算法 


GA 很 自然 地 适合 并 行 实现 ,而 且 已 经 探索 出 了 很 多 并 行 化 的 方法 。 粗 粒度 (coarse grain) 
并 行 方法 把 群体 细 分 成 相对 独立 的 个 体 群 , 称 为 类 属 (deme)。 然 后 为 每 个 类 属 分 配 一 个 不 同 
的 计算 节点 ,在 每 个 节点 进行 标准 的 GA 搜索 。 类 属 之 间 的 通信 和 交叉 发 生 的 频率 与 类 属 内 
的 通信 和 交叉 相 比较 低 。 类 属 之 间 的 交换 通过 迁移 (migration) 来 进行 ,也 就 是 某 些 个 体 从 一 
个 类 属 复 制 或 交换 到 其 他 的 类 属 。 这 个 过 程 模拟 了 以 下 的 生物 进化 方式 , 即 自然 界 中 异体 受 
精 可 能 发 生 在 分 离 的 物种 子 群体 之 间 。 这 种 方法 的 一 个 好 处 是 它 减 少 了 非 并 行 GA 经 常 碰 到 
的 拥挤 问题 ,在 非 并 行 算法 中 ,由 于 过 早出 现 支配 整个 群体 的 基因 型 ,使 系统 陷 人 局 部 最 优 。 
Tanese(1989) 和 Cohoon et al.(1987) 描 述 了 粗 粒 度 并 行 CA 算法 的 例子 。 

相对 于 粗 粒度 并 行 实现 , 细 粒 度 (fine-grained) 实 现 一 般 给 群体 中 的 每 个 个 体 分 配 一 个 处 
理 器 ,然后 相 邻 的 个 体 间 发 生 重组 。 人 们 已 经 提出 了 几 个 相 邻 模型 ,从 平面 网 格 到 超 环 结构 。 
Spiessens & Manderick( 1991) 描 述 了 这 样 的 系统 的 例子 。Stender(1993) 中 有 关于 并 行 GA 算 
法 的 论文 集 。 


9.8 小结 和 补充 读物 


本 章 的 要 点 包括 : 

© 遗传 算法 (GA) 进 行 一 种 随机 化 的 并 行 仆 山 搜索 来 发 现 使 预先 定义 的 适应 度 函 数 最 优 
的 假设 。 

© CA 所 采取 的 搜索 是 基于 对 生物 进化 的 模拟 。GA 维护 一 个 由 竞争 假设 组 成 的 多 样 化 
群体 。 在 每 一 次 尖 代 中 , 选 出 群体 中 适应 度 最 高 的 成 员 来 产生 后 代 , 替 代 群 体 中 适应 度 
最 差 的 成 员 。 假 设 常 被 编码 成 位 串 ,可 以 通过 交叉 算 子 组 合 ,位 串 上 也 可 能 发 生 随机 变 
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异 。 

o GA 阐明 了 如 何 把 学 习 过 程 看 成 最 优化 过 程 的 一 个 特例 。 具 体 来 说 ,学 习 任务 就 是 根据 
预先 定义 的 适应 度 函 数 发 现 最 优 的 假设 。 这 表明 其 他 的 最 优化 技术 ,例如 模拟 退火 法 ， 
也 可 以 应 用 到 机 器 学 习 问 题 。 

© GA 已 经 被 普遍 应 用 到 机 器 学 习 外 的 最 优化 问题 中 ,例如 ,设计 优化 问题 。 当 把 GA 应 
用 到 学 习 任 务 时 , 它 特别 适合 假设 很 复杂 的 任务 (例如 ,假设 是 机 器 人 控制 的 规则 集 或 
计算 机 程序 ) 和 最 优化 的 目标 是 假设 的 间接 函数 的 任务 (例如 ,要 求 得 到 的 规则 集 可 以 
成 功 地 控制 机 器 人 )。 

o 遗传 编程 是 遗传 算法 的 变 体 , 在 遗传 编程 中 ,被 操作 的 假设 是 计算 机 程序 而 不 是 位 串 。 
交叉 和 变异 操作 被 推广 以 应 用 于 程序 而 不 是 位 串 。 人 们 已 经 演示 了 遗传 编程 学 习 针 对 
某 些 任 务 的 程序 ,比如 模拟 机 器 人 控制 (Koza 1992) 和 识别 视觉 场景 ( visual scenes) 中 的 
物体 (Teller and Veloso 1994), 

在 计算 机 科学 发 展 的 早期 ,人 们 就 开始 探索 基于 进化 的 计算 方法 (例如 ,Box 1957 和 Bled- 
soe 1961)。20 世纪 60 年 代 提 出 了 几 个 不 同 的 进化 方法 ,后 来 又 被 进一步 研究 。Rechenberg 
(1965,1973) 开 发 的 进化 策略 用 来 优化 工程 设计 中 的 数字 参数 , Sehwefel(1975,1977,1995) 和 
其 他 一 些 人 继续 研究 了 这 种 策略 。Folgel & Owens & Walsh(1966) 开 发 了 进化 编程 ,作为 进 
化 有 限 状态 机 的 一 种 方法 。 大 量 的 研究 者 继续 探索 了 这 种 方法 (例如 ,Fogel & Atmar 1993), 
Holland(1962,1975) 提 出 的 遗传 算法 包含 了 维护 由 个 体 组 成 的 大 群体 的 概念 ,并 且 强 调 在 这 
样 的 系统 中 交叉 是 一 个 关键 的 操作 。Koza(1992) 介 绍 了 遗传 编程 ,把 遗传 算法 的 搜索 策略 应 
用 到 由 计算 机 程序 组 成 的 假设 中 。 随 着 计算 机 硬件 不 断 地 变 得 更 快 和 更 便宜 ,人 们 对 进化 方 
法 的 兴趣 也 不 断 增长 。 

K. DeJong 和 他 的 学 生 在 Pittsburgh 大 学 开发 了 (参见 Smith 1980) 使 用 GA 学 习 规 则 集 
的 方法 。 在 这 种 方法 中 , 每 个 规则 集 是 竞争 假设 组 成 的 群体 的 一 个 成 员 ,就 像 本 章 讨论 的 
GABIL 系统 中 的 一 样 。Holland 和 他 的 学 生 (Holland 1986) 在 Michigan 大 学 开发 了 不 同 的 方 
法 ,其 中 每 个 规则 是 群体 的 一 个 成 员 ,而 群体 本 身 是 一 个 规则 集 。Wright (1977) 从 生物 学 角 
度 分 析 了 变异 繁殖、 交叉 繁殖 和 进化 选择 的 作用 。 

Mitchell (1996) 和 Goldberg (1989) 是 讨论 遗传 算法 的 两 本 教材 。Forrest (1993) 概括 
了 GA 中 的 技术 问题 , Goldberg(1994) 概 括 了 最 近 的 几 个 应 用 。Koza(1992) 关 于 遗传 编程 的 
专著 是 对 遗传 算法 扩展 到 操作 计算 机 程序 的 标准 参考 书 。 发 表 新 成 果 的 主要 会 议 是 遗传 算法 
国际 会 议 (ICGA)。 其 他 相关 的 会 议 包括 自 适应 行为 仿真 会 议 (CSAB)、 人 工 神经 网 络 和 遗传 
算法 国际 会 议 (ICANNGA) 以 及 IEEE 进化 计算 国际 会 议 (ICEC)。 目 前 也 有 遗传 编程 方面 的 
年 会 (Koza et al. 1996b)。《 进 化 计算 杂志 》( Evolutionary Computation Journal) 是 这 个 领域 最 
新 研究 成 果 的 一 个 来 源 。《 机 器 学 习 》( Machine Learning ) 杂 志 的 一 些 特 刊 也 是 针对 GA 的 。 


习题 
9.1 为 第 3 章 中 描述 的 PlayTennis 问题 设计 一 个 遗传 算法 ,学 习 合 取 的 分 类 规则 。 精 确 地 


描述 出 其 中 假设 的 位 串 编码 和 一 组 交叉 算 子 。 
9.2 实现 习题 9. 1 中 的 简单 CA。 用 不 同 的 群体 大 小 p、 每 一 代 中 被 海 涩 的 比例 r 和 变异 率 


m 进行 试验 。 
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9.3 把 GP 发 现 的 程序 (在 第 9.5.2 节 中 描述 ) 重 新 表示 为 树 。 将 树 的 两 个 拷贝 作为 两 个 双 
亲 , 在 其 上 应 用 GP 的 交叉 算 子 。 说 明 其 中 交叉 算 子 的 操作 过 程 。 

9.4 考虑 把 GA 应 用 到 为 人 工 神经 网 络 (特别 是 与 反 向 传播 算法 训练 的 网 络 一 致 的 前 馈 网 
络 , 见 第 4 章 ) 寻 找 一 组 合适 的 权 值 。 考 虑 一 个 3 x 2 x 1 的 分 层 前 馈 网 络 。 描 述 一 种 把 
网 络 权 值 编码 成 位 串 的 方法 并 描述 一 套 适 当 的 交叉 算 子 。 提 示 :不 要 在 位 串 上 人 允许 所 有 
可 能 的 交叉 操作 。 指 出 在 训练 网 络 权 值 方面 ,使 用 GA 与 反 向 传播 算法 相 比 的 一 个 优点 
和 一 个 缺点 。 
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第 10 章 ”学习 规则 集合 


对 学 习 到 的 假设 ,最 具有 表征 力 的 和 最 能 为 人 类 所 理解 的 表示 方法 之 一 为 f-then 规则 的 
集合 。 本 章 探索 了 若 寺 能 学 习 这 样 的 规则 集合 的 算法 。 其 中 最 重要 的 一 种 是 学 习 包 含 变量 的 
规则 集合 ,或 称 为 一 阶 Hon 子 句 集合 。 由 于 一 阶 Hon 子 句 集合 可 被 解释 为 逻辑 编程 语言 
PRoLoc 中 的 程序 ,学 习 的 过 程 经 常 被 称 为 归纳 逻辑 编程 (ILP)。 本 章 考察 了 多 种 学 习 规则 集 
合 的 途径 ,其 中 一 种 途径 基于 机 器 定理 证 明 器 中 演绎 算 子 的 逆转 。 


10.1 简介 


在 许多 情况 下 ,有 必要 学 习 一 个 由 若干 if-then 规则 共同 定义 的 目标 函数 。 如 第 3 章 所 
示 , 学 习 规 则 集合 的 一 种 办 法 是 首先 学 习 决 策 树 , 然 后 将 此 树 转换 为 一 等 效 的 规则 集合 。 另 一 
种 方法 是 在 第 9 章 介 绍 的 遗传 算法 , 它 用 位 串 编码 每 个 规则 集合 ,然后 用 遗传 搜索 算 子 来 探索 
整个 假设 空间 。 本 章 我 们 讨论 一 组 不 同 的 算法 , 它 直接 学 习 规 则 集合 ,这 组 算法 与 前 面 的 算法 
相 比 有 两 点 关键 的 不 同 。 首 先 , 它 们 可 学 习 包 含 变量 的 一 阶 规则 集合 ,这 一 点 很 重要 ,因为 一 
阶 子 句 的 表达 能 力 比 命题 规则 要 强 得 多 。 其 次 ,这 里 讨论 的 算法 使 用 序列 覆盖 算法 ,一 次 学 习 
一 个 规则 ,以 递增 的 方式 形成 最 终 的 规则 集合 。 

作为 一 阶 规则 集合 的 例子 ,考虑 以 下 两 个 规则 ,它们 共同 描述 了 目标 概念 Ancestor。 这 里 
我 们 使 用 谓词 Pareni (x ,yy) 来 表示 y Æ x 的 父亲 或 母亲 ,而 谓词 4ncestor (x,y) 表 示 y 是 x 
的 任意 代 的 祖先 。 

IF Parent( x,y) THEN Ancestor( x,y) 

IF Parent(x,z) A Ancestor(z,y) THEN Ancestor( x,y) 

ER, UAE Ba RAB RRE T YS ea, Ee TRE FR A FB a TS 
来 表示 。 为 说 明 一 阶 规则 强大 的 表示 能 力 , 可 以 考虑 通用 的 编程 语言 PRoLoc。 在 Prolog 中 ， 
程序 是 一 阶 规则 的 集合 ,如 上 所 示 ( 这 种 形式 的 规则 也 被 称 为 Horn 74). KRE, WRB 
修改 上 面 两 个 规则 的 语法 ,就 可 以 得 到 一 个 合法 的 PRoLoc 程序 , 它 用 来 计算 Ancestor 关系 。 
因此 ,一 个 可 以 学 习 这 种 规则 集合 的 通用 算法 ,可 被 看 作 是 从 样 例 中 自动 推导 出 PRoLoc 程序 
的 算法 。 本 章 介绍 了 在 给 定 适 当 的 训练 样 例 集合 时 ,能 够 学 习 这 种 规则 的 学 习 算法 。 

实践 中 基于 一 阶 表 示 的 学 习 系 统 已 成 功 地 应 用 于 各 种 问题 ,如 在 质谱 仪 中 学 习 哪 一 个 化 
学 药品 能 粘 合 碎 片 (Buchanan 1976, Lindsay 1980) ,学 习 哪 一 个 化 学 亚 结构 会 产生 诱导 有 机 
体 突变 的 放射 性 物质 (一 个 关于 致癌 物质 的 属性 )(Srinivasan et al. 1994) ,以 及 学 习 有 限 单元 
网 以 分 析 物 理 结构 中 的 应 力 (Dolsak & Muggleton 1992)。 在 每 个 应 用 中 ,假设 的 表示 必须 包 
含 关系 断言 , 它 可 由 一 阶 表示 来 简单 地 表达 , 却 很 难 用 命题 表示 来 描述 。 

在 本 章 中 ,我 们 先 介绍 能 够 学 习 命题 规则 集 的 算法 , 即 不 含 变量 的 规则 。 在 这 种 框架 中 ， 
搜寻 假设 空间 学 习 析 取 规则 集合 的 算法 较 易 理解 。 然 后 ,我 们 考 虚 了 将 这 些 算法 扩展 到 一 阶 
规则 。 接 下 来 讨论 了 归纳 逻辑 的 两 种 通用 途径 以 及 归纳 和 演绎 推理 的 基本 关系 。 
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10.2 序列 覆盖 算法 


这 里 考虑 的 一 组 算法 ,其 学 习 规则 集 的 策略 为 :学 习 一 个 规则 , 移 去 它 覆 盖 的 数据 ,再 重复 
这 一 过 程 。 这 样 的 算法 被 称 为 序列 和 覆盖 (sequential covering) 算 法 。 假 设 我 们 已 有 一 个 子 程序 
LEARN-ONE-RULE, 它 的 输入 为 一 组 正 例 和 反例 ,然后 输出 单个 规则 , 它 能 够 覆盖 许多 正 例 而 覆 
瘟 很 少 的 反例 。 我 们 要 求 这 一 输出 的 规则 有 较 高 的 精确 度 , 但 不 必 有 较 高 的 覆盖 度 。 较 高 的 
精确 度 说 明 它 所 做 出 的 预测 应 为 正确 的 。 可 接受 较 低 的 覆盖 度 ,表示 它 不 必 对 每 个 训练 样 例 
都 做 出 预测 。 

有 了 这 样 一 个 学 习 单 个 规则 的 LEARN-ONE-RULE 子 程序 ,要 学 习 规 则 集 ,一 个 明显 的 方法 
是 在 所 有 可 用 训练 样 例 上 执行 LEARN-ONE-RULE ,再 移 去 由 其 学 到 的 规则 覆盖 的 正 例 ,然后 在 剩 
余 的 训练 样 例 上 执行 ,学 习 第 二 个 规则 。 该 过 程 可 重复 若干 次 ,直到 最 后 学 习 到 析 取 规则 集 。 
它们 共同 覆盖 正 例 , 禾 盖 程度 达到 所 希望 的 比例 。 算 法 被 称 为 序列 徐 差 算法 是 因为 它 按 次 序 
学 习 到 一 组 规则 ,它们 共同 覆盖 了 全 部 正 例 。 最 终 的 规则 集 可 被 排序 ,这 样 分 类 新 实例 时 可 先 
应 用 精度 最 高 的 规则 。 序 列 覆 盖 算 法 的 一 个 原型 在 表 10-1 中 陈述 。 


表 10-1 学 习 析 取 的 规则 集 的 序列 覆 妆 算 法 


SEQUENTIAL-COVERING( Target _attribute, Attributes, Examples, Threshold) 
@ Learned _ rules={} 
© Rule~~LEARN-ONE-RULE( Target _ attribute, Attributes, Examples) 
@ 当 PERFORMANCE( Rule, Examples) > Threshold ,做 : 
@ Learned _ rules~ Learned _ rules + Rule 
@ Examples Examples- | 被 Rule 正确 分 类 的 样 例 | 
@ Rule<-LEARNONERULE( Target _ attribute, Attributes, Examples) 
© Learned _rules<- 按 照 在 Examples 上 的 PERFoRMANCE 排序 的 Learned _ rules 
@ 返回 Learned _ rules 
32, LEARN-ONE-RULE 509038 19 32 448M BE 2 Examples 的 规则 。PERFORMANCE 是 用 户 提供 的 子 程序 ,以 评估 规则 的 质 
量 。 当 算法 再 也 不 能 学 习 到 一 个 性 能 超过 给 定 阅 值 Threshold 的 规则 时 ,终止 该 算法 。 


序列 覆盖 算法 是 广泛 使 用 的 学 习 析 取 规则 集 算法 的 其 中 之 一 。 它 将 学 习 析 取 规则 集 的 问题 
化 简 为 一 系列 更 简单 的 问题 ,每 个 子 问题 只 需 学 习 单个 合 取 规 则 。 由 于 它 执行 的 是 一 种 贪 焚 搜 
索 , 形 成 序列 化 的 规则 且 没 有 回 湖 ,所 以 它 不 能 保证 找到 能 覆盖 样 例 的 最 小 的 或 最 佳 的 规则 。 

如 何 设计 LEARN-ONE-RULE 程序 以 达到 序列 覆盖 算法 的 要 求 呢 ? 我 们 需要 一 个 算法 能 够 
形成 较 高 精度 的 规则 ,但 不 必 覆 盖 所 有 的 正 例 。 在 本 节 中 展示 了 各 种 算法 ,并 描述 了 它们 在 学 
术 研 究 上 已 探索 的 主要 差别 。 本 节 只 考虑 命题 规则 ,后 面 的 节 中 将 讨论 如 何 把 这 些 算法 扩展 
到 一 阶 Horn 子 句 。 


10.2.1 一 般 到 特殊 的 柱状 搜索 


实现 LEARN-ONE-RULE 的 一 个 有 效 途 径 是 将 假设 空间 搜索 过 程 设 计 为 与 ID3 算法 中 相似 
的 方式 ,但 在 每 一 步 只 沿 着 最 有 希望 的 分 支 进行 。 如 图 10-1 所 示 的 搜索 树 ,搜索 开始 于 最 一 
般 的 规则 前 件 ( 即 能 匹配 所 有 实例 的 空 测试 ) ,然后 加 入 那些 在 训练 样 例 上 性 能 改进 最 大 的 属 
性 测试 。 一 旦 该 测试 被 加 入 ,重复 该 过 程 , 贪 禁地 加 入 第 二 个 属性 测试 ,依次 类 推 。 如 ID3 AB 
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样 ,该 过 程 通过 贪 禁地 增加 新 的 属性 测试 来 获得 假设 ,直到 该 假设 的 性 能 到 达 一 个 可 接受 的 程 
度 。 与 ID3 不 同 的 是 ,此 LEARN-ONE-RULE 的 实现 在 每 一 步 沿 着 单个 分 支 一 一 即 产 生 最 佳 性 能 
的 属性 - 值 对 ,而 不 是 用 增长 子 树 的 办 法 覆盖 所 选 属性 的 所 有 可 能 值 。 

这 种 实现 LEARN-ONE-RULE 的 途径 执行 的 是 对 可 能 存在 的 规则 的 一 般 到 特殊 搜索 , 以 得 到 
一 个 有 较 高 精度 但 不 一 定 完全 覆盖 数据 的 规则 。 如 在 决策 树 学 习 中 那样 ,有 许多 方法 可 以 定 
义 选择 “最 佳 ” 分 支 的 度量 标准 。 与 在 ID3 中 类 似 , 我 们 可 定义 最 佳 分 支 , 它 覆盖 的 样 例 有 最 


低 的 焙 ( 见 式 (3.3))。 


IF 
THEN PlayTennis=yes 


IF Wind=weak 
THEN PlayTennis=yes 


IF Wind=strong IF Humidity=high 
PlayTennis=no, IF Humidity=normal THEN PlayTennis=no 
THEN PlayTennis=yes 


IF Humidity=normal -一 
ak 


Wind=we. 
THEN PlayTennis=yes 
IF Humidity=normal 
Wind=strong IF Humidity=normal 
THEN PlayTennis=yes Outlook=sunny 
THEN PlayTennis=yes 


IF Humidity=normal 
Outlook=rain 
THEN PlayTennis=yes 


每 一 步 ,最 佳 规则 的 前 件 被 以 各 种 可 能 方式 特 化 。 规 则 后 件 是 由 满足 前 提 条 件 的 样 例 所 决定 的 。 该 图 显示 的 
是 宽度 为 1 的 柱状 搜索 


图 10-1 LEARN-ONE-RULE 从 一 般 到 特殊 过 程 中 的 规则 前 件 搜索 


上 面 推荐 的 一 般 到 特殊 的 搜索 是 不 带 回潮 的 贪 禁 深 度 优 先 搜索 。 如 其 他 贪 禁 搜 索 一 样 ， 
它 所 带 来 的 危险 是 每 一 步 可 能 做 出 次 优 的 选择 。 为 减 小 这 种 风险 ,可 将 此 算法 扩展 为 一 种 柱 
状 搜索 (beam search) , 即 每 一 步 算法 保留 个 最 佳 候 选 的 列表 ,在 每 一 搜索 步 对 这 上 个 最 佳 
候选 生成 分 支 ( 特 化 ) ,并 且 结 果 集 再 被 前 减 至 上 个 最 可 能 成 员 。 柱 状 搜索 跟踪 当前 最 高 分 值 
假设 的 最 有 希望 的 替代 者 ,以 使 每 一 步 中 它们 的 所 有 后 继 都 被 考虑 到 。 该 一 般 到 特殊 柱状 搜 
索 用 于 CN2 程序 , 它 由 Clark & Niblett(1989) 提 出 。 该 算法 在 表 10-2 中 描述 。 


9210-2 ”LEAFN-ONE-RULE 的 一 种 实现 是 一 般 到 特殊 柱状 搜索 


LEARN-ONE-RULE( Target _ attribute, Attributes, Examples, k) 
BA—-T REF . LRA ERER ARER ,由 PERFoRMANCE 度量 来 引导 
© 初始 化 Best _ hypothesis 为 最 一 般 的 假设 Ø 
@ 初始 化 Candidate _ hypotheses 为 集合 | Best _ hypothesis | 
© 当 Candidate _ hypotheses 不 空 ,做 以 下 操作 : 
1. 生成 紧邻 更 特殊 的 候选 假设 
@ All _constraints<- 所 有 形式 为 (a = ") 的 约束 集合 ,其 中 a X Attributes HRA ,而 "为 出 现在 当前 Ex- 
amples 集合 中 的 a 值 
© New _candidate _ hypotheses- 
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(8) 


Xt Candidate _ hypotheses 中 每 个 h， 
对 All _constraints PHA c 
o 通过 加 入 约束 “ 创建 一 个 h 的 特 化 式 
@ 从 New _candidate _ hypotheses 中 移 去 任意 重复 的 、 不 一 致 的 或 非 极 大 特殊 化 的 假设 
2. 更 新 Best _ hypothesis 
@ Xt New _ candidate _ hypotheses PATA h 做 以 下 操作 : 
© W052 (pERFORMANCE(A, Examples, Target _ attribute) 
> PERFORMANCE( Best _ hypothesis, Examples, Target _ attribute )) 
则 Best _hypothesis<h 
3. 更 新 Candidate _ hypotheses 
@ Candidate _hypotheses*- New _ candidate _ hypotheses 中 上 个 最 佳 成 员 , 按 照 PERFORMANCE 度量 
@ 返回 一 个 如 下 形式 的 规则 : 
“如 果 Best _ hypothesis , 则 prediction” 
其 中 prediction 为 在 与 Best _ hypothesis 匹配 的 Examples 中 最 频繁 的 Target _ attribute 值 
PERFORMANCE(h, Examples, Target _ attribute ) 
@ h _examples—5 h 匹配 的 Examples 子 集 
© 返回 -Entropy(h _ examples), LF Entropy 是 关于 Target _ attribute Hi 


注 : 当前 假设 的 边缘 表示 为 变量 Candidate _hypotheses. AMA Clark & Niblett( 1989) ik t) CN2 程序 相 类 似 。 


下 面 是 对 表 10-2 中 的 LEARN-ONE-RULE 算法 的 说 明 。 首 先 , 注 意 在 算法 主 循环 中 考虑 的 
每 个 假设 是 属性 - 值 约束 的 合 取 。 每 个 合 取 假 设 对 应 于 待 学 习 规则 的 候选 前 件 集 合 , 它 由 其 覆 
盖 的 样 例 的 炉 来 评估 。 搜 索 过 程 不 断 特 化 候选 假设 ,直到 到 达 一 个 极 大 特殊 假设 , 它 包 含 所 有 
可 用 的 属性 。 由 该 算法 输出 的 规则 为 搜索 过 程 中 遇 到 的 性 能 最 佳 (PERFORMANCE 最 大 ) 的 规则 
一 一 不 一 定 是 搜索 最 终 产 生 的 假设 。 规 则 的 后 件 输出 只 在 算法 的 最 后 一 步 产生 ,在 其 前 件 ( 表 
示 为 变量 Best _ hypothesis ) 确 定之 后 ,算法 构造 出 的 规则 后 件 用 于 预测 在 规则 前 件 所 能 覆盖 的 
样 例 中 最 常见 的 目标 属性 值 。 最 后 还 应 注意 ,尽管 使 用 了 柱状 搜索 以 减 小 风险 , 贪 禁 搜索 仍 可 
能 产生 次 优 的 规则 。 即 使 这 样 ,序列 覆盖 算法 仍 能 学 到 一 组 规则 ,它们 共同 覆盖 训练 样 例 , 因 
为 它 对 剩余 的 未 覆盖 样 例 重复 调用 了 LEARN-ONE-RULE。 


10.2.2 几 种 变型 


序列 覆盖 算法 以 及 LEARN-ONE-RULE 算法 可 学 习 if-then 规则 集 以 覆盖 训练 样 例 。 该 途径 
有 许多 变型 。 比 如 , 某 些 情 况 下 可 能 希望 程序 只 学 习 覆 盖 正 例 的 规则 ,并 且 对 该 规则 没有 覆盖 
的 实例 “默认 ”地 赋予 其 反例 分 类 。 比 如 ,这 种 方法 适用 于 学 习 目标 概念 “可 能 剑 有 双胞胎 的 孕 
妇 ”。 在 这 种 情况 下 , 正 例 在 整个 群体 中 所 占 比 例 很 小 ,所 以 规则 集 如 果 只 标定 正 例 的 类 别 ,而 
对 所 有 其 他 样 例 默 认 分 类 为 反例 ,规则 集会 更 为 简洁 易 懂 。 这 一 方法 对 应 于 PRoLoc 中 的 “ 失 
败 和 否定” 策略 ,其 中 不 能 证 明 为 真 的 表达 式 都 默认 为 假 。 为 了 学 习 这 样 的 只 预测 单个 目标 值 的 
规则 ,需要 修改 LEARN-ONE-RULE 算法 以 接受 附加 的 输入 变量 ,指定 感 兴趣 的 目标 值 。 一 般 到 


特殊 柱状 搜索 像 以 前 一 样 处 理 , 只 要 修改 评估 假设 的 PERFORMANCE 子 程序 。 注 意 , PERFOR- 
MANCE 定义 为 负 炳 已 不 再 适用 于 这 一 新 的 设 定 , 因 为 它 把 只 有 履 盖 反例 的 假设 赋予 了 最 大 分 值 ， 


与 只 覆盖 正 例 的 假设 一 样 。 这 种 情况 下 使 用 该 假设 覆盖 正 例 比例 的 度量 标准 则 更 为 适合 。 
算法 的 另 一 变型 是 一 组 称 为 AQ 的 算法 (Michalsk 1969, Michalski et al. 1986), 它 比 上 面 

基于 CN2 算法 的 讨论 更 早 。 如 CN2 一 样 ,AQ 学 习 析 取 规 则 集 来 覆盖 目标 函数 。 然 而 , 4Q 

与 上 面 给 出 的 算法 有 以 下 不 同 : 首 先 ,AQ 的 覆盖 算法 与 序列 覆盖 算法 不 同 ,因为 它 明确 地 寻 
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找 覆 盖 特 定 目 标 值 的 规则 ,然后 ,对 每 个 目标 值 学 习 一 个 析 取 规则 集 。 其 次 ,AQ 算法 学 习 单 
个 规则 的 方法 也 不 同 于 LEARN-ONE-RULE。 当 它 对 每 个 规则 执行 一 般 到 特殊 柱状 搜索 时 , 它 围 
绕 单 个 正 例 来 进行 搜索 。 确 切 地 说 , 它 在 搜索 中 只 考虑 被 该 正 例 满 足 的 属性 ,以 得 到 逐渐 特殊 
的 假设 。 每 次 学 一 个 新 规则 时 , 它 从 那些 未 覆盖 的 样 例 中 也 选择 一 个 新 的 正 例 ,作为 种 子 以 指 
引 新 析 取 项 的 搜索 。 


10.3 学 习 规 则 集 : 小 结 


上 面 讨论 的 序列 覆盖 算法 和 第 3 章 中 的 决策 树 学 习 算 法 提供 了 几 种 学 习 规则 集 的 方法 。 
本 节 考 虑 这 些 规则 学 习 算 法 设计 中 的 关键 思想 。 

第 一 ,序列 和 覆盖 算法 每 次 学 习 一 个 规则 , 移 去 覆盖 的 样 例 后 在 剩余 样 例 上 重复 这 一 过 程 。 
相反 ,如 ID3 那样 的 决策 树 算法 使 用 单个 搜索 过 程 来 搜索 可 接受 的 决策 树 , 每 一 步 并 行 学 习 
整个 析 取 项 的 集合 。 因 此 ,我 们 也 可 将 ID3 这 样 的 算法 称 为 并 行 履 盖 算 法 。 对 应 于 CN2 这 样 
的 序列 覆盖 算法 , 哪 一 种 算法 比较 好 ? 答案 关键 在 于 搜索 中 最 基本 步骤 之 间 的 差别 。ID3 在 
每 一 搜索 步 中 根据 它 对 数据 产生 的 划分 选择 不 同 的 属性 。 相 反 ,CN2 选择 的 是 不 同 的 属性 - 值 
对 ,方法 是 通过 比较 它们 覆盖 的 数据 子 集 。 要 看 出 这 种 差别 的 意义 所 在 ,需要 比较 两 种 算法 为 
学 习 到 相同 的 规则 集合 所 做 出 的 不 同 选择 的 次 数 。 为 了 学 习 到 n 个 规则 的 集合 ,每 个 规则 前 
件 包 合 大 个 属性 值 测试 ,序列 覆盖 算法 需要 执行 nk 次 基本 搜索 步 ,为 每 个 规则 的 每 个 前 件 
做 独立 的 选择 ,而 并 行 覆 盖 算 法 的 独立 选择 次 数 远 远 少 于 它 ,因为 在 决策 树 中 每 个 决策 结 点 的 
选择 都 对 应 了 与 该 结 点 相关 联 的 多 个 规则 的 前 件 选择 。 换 言 之 ,如 果 决 策 结 点 测试 一 个 有 m 
种 可 能 值 的 属性 ,每 次 决策 结 点 的 选择 都 对 应 了 对 m 个 相应 的 规则 中 每 个 规则 的 前 件 选择 
(见习 题 10.1)。 这 样 ,序列 覆盖 算法 (如 CN2) 做 出 的 独立 选择 次 数 高 于 ID3 那样 的 并 行 覆 盖 
算法 。 但 哪 一 种 算法 更 好 呢 ? 其 解答 依赖 于 有 多 少 训练 数据 是 可 用 的 。 如 果 数 据 非 常 丰 富 ， 
那么 它 可 以 支持 序列 覆盖 算法 所 要 求 的 较 大 数量 的 独立 选择 。 然 而 若 数 据 较 缺乏 ,对 于 不 同 
规则 前 件 的 决策 “共享 ” 则 更 有 效 。 另 一 考虑 在 于 特定 的 任务 中 是 否 希 望 不 同 的 规则 测试 相同 
的 属性 。 在 并 行 覆 盖 决 策 树 学 习 算 法 中 会 出 现 这 样 的 情况 ,在 序列 覆盖 算法 中 则 不 存在 。 

第 二 个 相 异 之 处 在 于 LEARN-ONE-RULE 搜索 的 方向 。 在 上 面 描述 的 算法 中 ,搜索 是 从 一 般 
到 特殊 的 。 其 他 已 讨论 的 算法 (如 第 2 章 中 的 FINp-S) 是 从 特殊 到 一 般 的 。 在 此 情况 下 ,从 一 
般 到 特殊 搜索 的 一 个 优点 在 于 只 有 一 个 极 大 一 般 假设 可 作为 搜索 起 始点 ,而 在 多 数 假 设 空间 
中 有 很 多 特殊 假设 (如 对 每 个 实例 有 一 个 假设 )。 因 为 有 许多 极 大 特殊 假设 ,就 不 能 确定 选择 
哪 一 个 作为 搜索 的 开始 点 。 执 行 从 特殊 到 一 般 搜索 的 一 个 称 为 GoLEM (Muggleton & Feng 
1990) 的 程序 解决 此 问题 的 方法 是 随机 选择 多 个 正 例 ,以 此 为 初始 来 进行 搜索 。 在 多 个 随机 选 
择 中 的 最 佳 假 设 作为 最 后 结果 。 

第 三 个 要 考虑 的 是 LEARN-ONE-RULE 是 为 一 个 生成 再 测试 (generate then test) 搜 索 ,范围 为 
所 有 合法 的 假设 ,如 我 们 推荐 的 实现 中 那样 ;还 是 一 个 样 例 驱动 (example-driven) 搜 索 ,以 使 训 
练 样 例 个 体 约束 假设 的 生成 。 样 例 驱动 搜索 算法 包括 第 2 章 的 FINp-S、 候 选 消除 .AQ 算法 以 
及 本 章 后 面 要 讨论 的 Cico 算法 。 在 这 些 算法 中 ,对 假设 的 生成 或 修正 是 由 单独 的 训练 样 例 
驱动 的 ,而 且 结果 是 一 个 已 修正 的 假设 ,使 对 此 单个 样 例 的 性 能 得 到 改善 。 这 不 同 于 表 10-2 
中 LEARN-ONE-RULE 算法 的 生成 再 测试 搜索 ,其 中 后 续 的 假设 的 生成 只 基于 假设 表示 的 语法 。 
在 这 些 候选 假设 生成 之 后 再 分 析 训 练 数据 ,然后 基于 这 些 假设 在 全 部 样 例 上 的 性 能 来 进行 选 
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择 。 生 成 再 测试 的 一 个 重要 优点 是 搜索 中 每 一 步 的 选择 都 基于 在 许多 样 例 上 的 假设 性 能 , 因 
此 噪声 数据 的 影响 被 最 小 化 。 相 反 , 样 例 驱 动 算法 基于 单个 的 样 例 改 进 假设 , 它 更 容易 被 一 些 
噪声 训练 样 例 影响 ,因此 对 训练 数据 中 差错 的 健壮 性 较 差 。 
第 四 ,是否 需要 对 规则 进行 后 修剪 以 及 怎样 后 修剪 。 如 在 决策 树 学 习 中 一 样 LEARN-ONE- 
RULE 也 有 可 能 形成 在 训练 数据 上 人 性 能 很 好 的 规则 ,但 在 以 后 的 数据 中 很 差 的 规则 。 解 决 的 办 
法 也 是 在 得 到 每 个 规则 后 进行 后 修剪 。 确 切 地 讲 , 可 以 移 去 某 些 前 件 ,只 要 能 提高 不 同 于 训练 
样 例 的 用 于 后 修剪 的 样 例 集 合 上 的 性 能 ,对 于 后 修剪 更 详细 的 讨论 见 前 面 的 内 容 。 
最 后 要 考虑 的 是 指引 LEARN-ONE-RULE 的 搜索 方向 的 规则 性 能 (PERFORMANCE) 的 定义 。 目 
前 存在 各 种 不 同 的 评价 函数 ,常用 的 评估 函数 包括 : 
© 相对 频率 (relative frequency): 令 n 代表 规则 所 匹配 的 样 例 数目 , 令 n, 代表 其 中 它 能 正 
确 分 类 的 数目 。 规 则 性 能 的 相对 频率 估计 为 : 
相对 频率 被 用 于 在 AQ 程序 中 评估 规则 。 

© 精度 的 m- 估 计 ( m-estimate of accuracy ) :该 精度 估计 偏向 于 规则 所 期 望 的 默认 精度 。 
它 在 数据 比较 缺乏 且 规 则 必须 在 很 少 的 样 例 上 评估 时 常用 。 令 nMn 如 上 定义 , 令 p 
为 从 整个 数据 集中 随机 抽取 的 样 例 与 该 规则 赋予 的 分 类 相同 的 先 验 概率 (例如 ,如 果 
100 个 样 例 中 有 12 个 与 该 规则 的 预测 值 相 同 ,那么 p = 0.12)。 最 后 , 令 m AM, MH 
对 此 先 验 概率 p 进行 加 权 的 等 效 样 例 数 目 。 对 规则 精度 的 mm- 估计 为 : 

me + mp 


n+m 

注意 ,如 果 m 被 设 为 0, 则 m- 估 计 变 为 上 面 的 相对 频率 估计 。 当 m 上 升 时 ,需要 更 多 
的 样 例 来 克服 这 个 预先 假定 的 精度 po m- 估 计 度 量 由 Cestnik & Bratko(1991) 提 出 ， 
它 已 被 用 于 某 些 版 本 的 CN2 算法 中 。 它 也 被 用 于 第 6.9.1 节 讨 论 的 朴素 贝 叶 斯 分 类 
器 。 

© 38 (entropy) :这 是 在 表 10-2 中 使 用 的 PERFORMANCE 子 程序 中 使 用 的 度量 。 令 $ 为 匹配 
规则 前 件 的 样 例 集合 。 焙 衡量 的 是 该 样 例 集合 中 目标 函数 的 均一 性 。 这 里 使 用 箭 的 负 
值 ,以 使 较 佳 的 规则 拥有 较 高 的 分 值 : 


一 Entropy ( S) = > pilogs pi 
其 中 ,c 为 目标 函数 可 取 的 不 同 值 数量 , p; AS 中 目标 函数 取 第 ; 个 值 的 样 例 所 占 比 
Bl, FSi RRMA RE BRAAFOCN2 算法 (Clark & Niblett 1989), 它 也 是 许 
多 决策 树 学 习 算法 中 信息 增益 度量 的 基础 。 


10.4 学 习 一 阶 规则 


前 面 讨 论 的 算法 针对 学 习 命 题 规则 集 ( 即 无 变量 的 规则 )。 本 节 中 将 考虑 带 有 变量 的 规 
则 ,确切 地 讲 为 一 阶 Hom 子 句 。 之 所 以 考虑 这 样 的 规则 ,是 因为 它们 比 命题 规则 更 有 表征 能 
力 。 一 阶 规则 的 归纳 学 习 通 常 被 称 为 归纳 远 辑 编程 (Inductive Logic Programming, ILP), 因为 
这 一 过 程 可 看 作 从 样 例 中 自动 推论 出 PRoroc 程序 。PRoLoc 是 一 个 通用 的 相当 于 图 灵机 使 
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用 的 编程 语言 ,其 中 程序 被 表示 为 一 组 Horn 子 句 。 
10.4.1 一 阶 Hom 子 句 


为 说 明 一 阶 表示 比 命题 (无 变量 ) 表 示 的 优越 之 处 ,考虑 一 个 学 习 任 务 , 目 标 概 念 很 简单 ， 
即 Daughter (x,y) CIERRA BA x My 上 。Daughter(x,y) 的 值 在 x Æ y 的 女儿 时 为 真 ， 
否则 为 假 。 假 定 每 个 人 被 描述 为 属性 Name, Mother, Father, Male 和 Female 。 因 此 每 个 训 
练 样 例 将 包含 用 这 些 属性 描述 的 两 个 人 以 及 目标 属性 Daughter 的 值 。 例 如 ,下 面 的 正 例 ,其 
中 Sharon 为 Bob 的 女儿 。 


( Name, = Sharon, Mother, = Louise, Father, = Bob, 
Male, = False, Female, = True, 

Name, = Bob, Mother, = Nora, Father, = Victor, 
Male, = True, Female, = False, Daughter | 2 = True) 


其 中 ,每 个 属性 名 上 的 下 标 是 为 了 区 分 这 两 个 人 。 现 在 ,如 果 搜 集 许 多 这 样 的 目标 概念 
Daughter, 2 的 训练 样 例 ,并 将 它们 提供 给 一 个 命题 规则 学 习 器 ,如 CN2 和 C4.5, 结 果 将 为 一 
组 非常 特殊 的 规则 ,如 : 

IF ( Father, = Bob) A ( Name, = Bob) A ( Female, = True) 

THEN Daughter,,. = True 

虽然 这 个 规则 是 正确 的 ,但 它 过 于 特殊 了 ,因此 它 对 今后 的 分 类 几乎 毫 无 用 处 。 问 题 在 
于 ,命题 表示 方法 不 能 够 描述 属性 值 之 间 的 实质 关系 。 与 此 不 同 ,使 用 一 阶 表示 的 程序 将 学 到 
下 面 的 一 般 规则 : 

IF Father(y,x) A Female(y), THEN Daughter( x,y) 

其 中 ,x My 为 变量 ,它们 可 指 代 任何 人 。 

一 阶 Horn 子 句 还 可 指定 前 件 中 的 变量 不 出 现在 后 件 中 的 规则 。 例 如 ,对 CrandDaughter 
的 规则 为 : 

IF Father(y,z) A Mother(z,x) 人 Femaie(y) 

THEN GrandDaughter( x,y) 

注意 该 规则 中 的 变量 z, CHR y 的 父亲 ,在 规则 后 件 中 没有 出 现 。 当 一 个 变量 只 在 前 件 
中 出 现时 ,假定 它 是 被 存在 量化 (existentially quantified) 的 , 即 只 要 存在 该 变量 的 一 个 约束 能 
满足 对 应 的 文字 ,那么 规则 前 件 就 满足 。 

还 可 能 在 规则 的 后 件 和 前 件 中 使 用 相同 的 谓词 描述 递归 的 规则 。 如 本 章 开头 的 两 个 规则 
提供 了 概念 Ancestor (x,y) 的 递归 定义 。 以 下 将 描述 的 ILP 学 习 方 法 已 可 以 学 习 几 种 简单 的 
递归 函数 ,包括 上 面 的 Ancestor 函数 以 及 其 他 一 些 函 数 ,如 对 列表 中 元 素 进行 排序 ;从 列表 中 
移 去 一 特定 元 素 ; 拼接 两 个 列表 。 


10.4.2 术语 


在 继续 介绍 学 习 Horn 子 句 集 的 算法 之 前 , 先 介绍 一 些 形式 逻辑 中 的 基本 术语 。 所 有 的 
表达 式 由 常量 (如 , Bob, Louise) .变量 (如 x ,y) 、 谓 词 符号 (如 Married, Greater _ Than) UK 
函数 符号 (如 ,age) 组 成 。 谓词 和 函数 的 区 别 在 于 谓词 只 能 取 值 真 或 假 ,而 函数 的 取 值 可 为 任 
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意 常量 。 这 里 使 用 小 写 符号 表示 函数 ,大 写 符号 表示 谓词 。 

对 于 这 些 符号 ,可 构造 如 下 表达 式 : 项 (term) 是 任意 常量 任意 变量 或 应 用 到 任意 项 上 的 
任意 函数 (如 ,Bob，x，age( Bob) 等 )。 一 个 文字 (literal) 是 应 用 到 项 上 的 任意 谓词 或 其 否定 。 
如 Married (Bob, Louise), — Greater _ Than ( age ( Sue ) , 20) 等 。 如 果 文 字 包 含 否 定 符号 
(一 ), 将 其 称 为 负 文 字 (negative literal) ,否则 为 正文 字 (positive literal), 

子 身 (clause) 是 多 个 文字 的 任意 析 取 ,其 中 所 有 的 变量 假定 是 全 称 量化 的 。Horn FA 
(Horn clause) 为 包含 至 多 一 个 正文 字 的 子 句 ,例如 : 

HVL VeL, 
其 中 HAMS, Lee L, 为 负 文字 。 由 于 等 式 (BV 一 4)=(B<4) 和 一 (4 人 
B)=(7AV 7B), EM Horn 子 句 可 被 写 为 如 下 形式 : 
H<-(LiA:…L,) 
它 与 我 们 前 面 的 规则 等 价 ,按照 二 then 的 写法 如 下 : 
IFLA A La, THEN H 

无 论 写法 如 何 ,Horn 子 句 的 前 件 CA… A La 被 称 为 子 句 体 (body) 或 者 子 句 先行 词 (an- 
tecedents) 。 文 字 H 后 件 称 为 子 句 头 (head) 或 子 句 推论 (consequent)。 为 参考 方便 ,这 些 定义 
以 及 本 章 后 将 介绍 的 概念 在 表 10-3 中 列 出 。 


表 10-3 一 阶 逻辑 中 的 基本 定义 


@ 每 个 良 构 的 表达 式 由 常量 (如 Mary、23 或 Joe)、 变 量 (如 *)、 谓 词 ( 如 在 female( Mary) PH) Female) M Bat 
(如 在 agel Mary) FRY age) 组 成 
@ 项 (term) 为 任意 常量 .任意 变量 或 任意 应 用 到 项 集合 上 的 函数 。 例 如 , Mary, x, age( Mary), age(x) 
@ 文字 (literal) 是 应 用 到 项 集合 上 的 任意 谓词 或 其 否定 。 例 如 , Female( Mary), 一 Female(x), Greater _ than 
(age( Mary), 20) 
@ 基本 文字 (ground literal) 是 不 包含 任何 变量 的 文字 (如 , — Female( Joe)) 
© 负 文 字 (negative literal) 是 包含 否定 谓词 的 文字 (如 ,一 Female( Joe)) 
© 正文 字 (positive literal) 是 不 包含 否定 符号 的 文字 (如 , Female( Joe)) 
O 地 句 (clause) 是 多 个 文字 的 析 取 式 , MV... M, ,其 中 的 所 有 变量 是 全 称 量化 的 
@ Hom 子 句 是 一 个 如 下 形式 的 表达 式 : 
H<(LiA*… A La) 
AFH, LoL, HERS. H BBA Hom 子 句 的 头 (head) 或 推论 (consequent)。 文 字 合 取 式 Li1 A LAA 
La BRA Horn 子 句 的 体 (hody) 或 者 先行 词 (antecedents) 
@ 对 任意 文字 4 和 8B, 表达 式 ( 4A<-B) 等 价 于 ( 4 V 一 8), 而 表达 式 一 (A 入 8) 等 价 于 (一 4V 一 8)。 因 此 ,一 个 
Horn 于 句 可 被 等 效 地 写 为 下 面 的 析 取 式 : 
HV OL VeV OL, 
@ 置换 (substitution) 是 一 个 将 某 些 变量 蔡 换 为 某 些 项 的 函数 。 例 如 ,置换 { x/3，7y/zj 把 变量 x 替换 为 项 3 并 且 
把 变量 y 替换 为 项 z。 给 定 一 个 置换 9 和 一 文字 工 ,我 们 使 用 26 代表 应 用 置换 6 到 得 到 的 结果 
@ 两 个 文字 Li 和 La RS — A (unifying substitution) 94 — 6, 1848 L,@= L30 


10.5 学 习 一 阶 规则 集 :FOIL 


有 许多 算法 已 被 提出 用 于 学 习 一 阶 规则 或 Hon 子 句 。 本 节 中 将 介绍 FOIL 程序 (Quin- 
lan 1990) , 它 使 用 的 方法 非常 类 似 于 前 面 介绍 的 序列 覆盖 和 LEARN-ONE-RULE 算法 。 实 际 上 ， 
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FOIL 是 这 些 较 早 的 算法 在 一 阶 表 示 上 的 自然 扩展 。 形 式 化 地 讲 , 由 FOIL 学 习 的 假设 为 一 阶 
规则 集 , 其 中 的 规则 类 似 于 Horn 子 句 ,但 有 两 个 不 同 :首先 ,由 FOIL 学 习 的 规则 比 一 般 的 
Horn 子 名 更 受 限 ,因为 文字 不 允许 包含 肾 数 符号 (这 减 小 了 假设 空间 搜索 的 复杂 度 )。 其 次 ， 
FOIL 规则 比 Horn 子 句 更 有 表征 力 , 因 为 规则 体 中 的 文字 也 可 为 负 文 字 。FOIL 已 被 应 用 于 
多 种 问题 领域 。 例 如 , 它 已 用 于 学 习 快 速 排 序 算法 QufcksoRT 的 递归 定义 ,以 及 学 习 从 合法 
棋盘 状态 中 区 分 出 非法 状态 。 

FOIL 算法 在 表 10-4 中 列 出 。 注 意外 层 循环 对 应 于 前 面 描述 的 序列 覆盖 算法 。 它 每 次 学 
习 一 个 新 规则 ,然后 将 此 规则 覆盖 的 正 例 移 去 ,再 学 习 下 一 规则 。 算 法 的 内 层 循环 是 前 面 的 
LEARN-ONE-RULE 的 另 一 种 形式 , 它 已 被 扩展 以 适合 处 理 一 阶 规则 。 还 要 注意 FOIL 和 前 面 算 
法 的 一 些微 小 的 不 同 。 确 切 地 讲 , FOIL 只 搜寻 那些 预测 目标 文字 何 时 为 True 的 规则 ,而 前 
面 的 算法 既 搜 寻 预 测 何 时 为 True 的 规则 ,也 搜寻 了 预测 何 时 为 False 的 规则 。FOIL 还 应 用 了 
一 个 简单 的 假山 搜索 ,而 不 是 柱状 搜索 ( 即 它 执 行 的 搜索 等 价 于 宽度 为 1 的 柱状 搜索 )。 


表 10-4 基本 的 FOIL 算法 


FOIL( Target _ predicate, Predicates, Examples) 
@ Pos< Examples 中 Target _ predicate 为 True 的 成 员 
© Neg Examples 中 Target _ predicate W False 的 成 员 
@ Learned _ rules< {| 
@ 当 Pos 不 空 ,做 以 下 操作 : 
" New Rule 
© NewRule -没有 前 件 的 谓词 Target _ predicate 规则 
© NewRuleNeg< Neg 
@ 24 NewRuleNeg 不 空 , 做 以 下 操作 ， 
增加 新 文字 以 特 化 New Rule 
@ Candidate _literals—Xt New Rule 生成 候选 新 文字 ,基于 Predicates 
@ Best _ literals _ argmax Foil _ Gain( L, NewRule) 
@ 把 Best _ literal 加 入 到 NewRule 的 前 件 
© NewRuleNeg+ NewRuleNeg 中 满足 New Rule 前 件 的 子 集 
@ Learned _rules< Learned _ rules + NewRule 
© Pos< Pos -| 被 NewRule 覆盖 的 Pos 成 员 | 
全 返回 Learned _ rules 


a 表 中 给 出 了 生成 候选 文字 Candidate _ literals 的 方法 和 FOIL 增益 Foil _ Gain 的 定义 。 该 基本 算法 可 稍 做 修改 以 
更 好 地 处 理 有 噪声 教 据 , 正 如 文中 所 描述 的 。 

为 理解 由 FOIL 执行 的 假设 空间 搜索 ,最 好 将 其 看 作 是 层次 化 的 。FOIL 外 层 循环 中 每 次 
将 加 入 一 条 新 的 规则 到 其 析 取 式 假设 Learned _ rules 中 去 。 每 个 新 规则 的 效果 是 通过 加 入 一 
个 析 取 项 泛 化 当前 的 析 取 假设 ( 即 增 加 其 分 类 为 正 例 的 实例 数 )。 在 这 一 层次 上 看 ,这 是 假设 
空间 的 特殊 到 一 般 的 搜索 过 程 , 它 开始 于 最 特殊 的 空 析 取 式 ,在 假设 足够 一 般 以 至 覆盖 所 有 正 
例 时 终止 。FOIL 的 内 层 循环 执行 的 是 细 粒 度 较 高 的 搜索 ,以 确定 每 个 新 规则 的 确切 定义 。 
该 内 层 循环 在 另 一 假设 空间 中 搜索 , 它 包含 文 字 的 合 取 , 以 找到 一 个 合 取 式 形成 新 规则 的 前 
件 。 在 这 个 假设 空间 中 , 它 执行 的 是 一 般 到 特殊 的 爬山 搜索 ,开始 于 最 一 般 的 前 件 (空前 件 )， 
然后 增加 文字 以 使 规则 特 化 直到 其 避 开 所 有 的 反例 。 

在 FOIL 和 前 面 的 序列 覆盖 和 LEARN-ONE-RULE 算法 之 间 有 两 个 最 实质 的 不 同 , 它 来 源 于 
此 算法 对 一 阶 规则 处 理 的 需求 。 这 些 不 同 在 于 : 
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1) 在 学 习 每 个 新 规则 的 一 般 到 特殊 搜索 中 ,FOIL 使 用 了 不 同 的 细节 步 又 来 生成 规则 的 
候选 特 化 式 。 这 一 不 同 是 为 了 处 理 规则 前 件 中 含有 的 变量 。 

2) FOIL 使 用 的 性 能 度量 Foil Gain 不 同 于 表 10-2 中 的 炉 度 量 。 这 是 为 了 区 分 规则 变 
量 的 不 同 约束 ,以 及 由 于 FOIL 只 搜寻 覆盖 正 倒 的 规则 。 

下 面 两 节 将 更 详细 地 考虑 这 两 个 不 同 之 处 。 


10.5.1 FOIL 中 的 候选 特 化 式 的 生成 


为 了 生成 当前 规则 的 候选 特 化 式 ,FOIL 生成 多 个 不 同 的 新 文字 ,每 个 可 被 单独 地 加 到 规 
则 前 件 中 。 更 精确 地 讲 , 假 定 当 前 规则 为 ; 

P(x); Mas tty xp) < 

EF, L1… 工 , 为 当前 规则 前 件 中 的 文字 ,而 P(x, x2, °° zx;) 为 规则 头 ( 或 后 件 )。FOIL 
生成 该 规则 的 候选 特 化 式 的 方法 是 考虑 符合 下 列 形式 的 新 文字 忆 ,1: 

e Q(%,...,0,), P Q AE Predicates 中 出 现 的 任意 谓词 名 ,并 且 v; 既 可 为 新 变量 ， 

也 可 为 规则 中 已 有 的 变量 。v 中 至 少 一 个 变量 必须 是 当前 规则 中 已 有 的 。 

© Equal(x;, x.) AP x; 和 xx 为 规则 中 已 有 的 变量 。 

o 上 述 两 种 文字 的 否定 。 

为 说 明 这 一 点 ,考虑 待 学 习 的 规则 是 预测 目标 文字 GrandDaughter (x ,yy), 其 中 描述 样 例 
的 其 他 谓词 包括 Father 和 Female. FOIL 中 的 一 般 到 特殊 搜索 开始 于 最 一 般 的 规则 : 

GrandDaughter ( x, y)“ 

它 断 言 对 任意 x 和 y, GrandDaughter 都 为 真 。 为 特 化 这 一 初始 规则 ,上 面 的 过 程 生成 下 列 
文字 作为 将 添加 到 规则 前 件 中 的 候选 文字 : Equal (x,y)、Female(x)、Female(y)、Father( x， 
y)、 Father(y, x)、 Father(%,z)、 Father(z,x)、 Father(y,z)、 Father(z, y) 以 及 这 些 文字 的 否 
定 (例如 ;一 Equal(%,y))。 注 意 ,这 里 z 是 一 新 变量 ,而 x 和 y 是 当前 规则 中 已 有 的 。 

现在 假定 在 上 述 文字 中 FOIL 贪 禁 地 选择 了 Father( y，z) 作 为 最 有 希望 的 文字 ,得 到 一 
个 较 特殊 的 规则 : 

GrandDaughter (x, y)«-Father(y,z) 

在 生成 为 进一步 特 化 该 规则 的 候选 文字 时 ,FOIL 要 考虑 的 文字 除 上 一 步 所 有 文字 之 外 ， 
还 要 加 上 Female(z)、Equal(z,%x)、Egual(z,y)、Father(z,w)、Father(w,z) 以 及 它们 的 
否定 。 之 所 以 加 上 这 些 文字 是 因为 前 一 步 变量 z 被 加 到 规则 中 ,所 以 FOIL 要 考虑 增加 另 一 
个 新 变量 w。 

如 果 FOIL 这 时 选择 了 Father (z,x), 然 后 在 下 一 循环 选择 了 文字 Female(y) ,将 得 到 下 
面 的 规则 。 它 只 覆盖 正 例 ,因此 ,终止 了 进一步 搜索 该 规则 的 特 化 式 的 过 程 ; 

GrandDaughter (x, y) «-Father(y, z) A Father(z,x) A Female(y) 
这 时 ,FOIL 将 会 移 去 被 该 新 规则 覆盖 的 所 有 样 例 。 如 果 还 有 未 覆盖 的 正 例 ,算法 将 开始 
.下 一 个 一 般 到 特殊 搜索 以 获得 新 的 规则 。 


10.5.2 引导 FOL 的 搜索 


要 在 每 一 步 中 从 候选 文字 中 选择 最 有 希望 的 文字 , FOIL 在 训练 数据 上 测量 规则 的 性 能 。 
在 此 过 程 中 , 它 考虑 当前 规则 中 每 个 变量 的 可 能 的 约束 。 为 说 明 这 一 过 程 ,再 次 考虑 学 习 目 标 
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文字 GrandDaughter( x ,y) 的 规则 和 集 的 例子 。 假 定 训 练 数据 包含 下 列 的 简单 的 断言 集合 ， 
中 使 用 约定 的 P(x ,y) 可 被 读 作 “x HYP Bey”. 

GrandDaughter ( Victor, Sharon) Father( Sharon, Bob) Father( Tom, Bob) 

Female( Sharon ) Father ( Bob, Victor) 

对 这 个 封闭 的 世界 还 要 作 一 假定 , 即 任何 涉及 到 谓词 CrandDaughter, Father, Female 
及 常量 Victor、Sharon、Bob 和 Tom 的 文字 , 若 它 们 没有 在 上 面 列 出 , 则 被 假定 为 False( 如 ,我 
们 可 以 隐 含 地 断言 一 GrandDaughter( Tom , Bob), — GrandDaughter( Yictor，Fictor) 等 )。 

为 选择 当前 规则 的 最 佳 特 化 式 ,FOIL 考虑 规则 变量 约束 到 训练 样 例 中 各 常量 的 每 种 不 
同 的 方式 。 例 如 ,在 初始 步 , 规 则 为 : 

GrandDaughter (x,y) 

规则 变量 没有 被 任何 前 件 约束 ,因此 可 以 约束 到 四 个 常量 Victor, Sharon, Bob 和 Tom 
的 任意 组 合 。 这 里 使 用 记号 {x/Bob，y/ Sharon | 代表 特定 的 变量 约束 ,即将 每 个 变量 映射 到 
一 个 常量 的 置换 。4 个 常量 对 此 初始 规则 可 产生 16 种 可 能 的 约束 。 而 约束 {x/Victor，y/ 
Sharon | 对 应 的 是 正 例 约束 ,因为 训练 数据 中 包含 断言 GrandDaughter( Victor ，Sharon )。 在 
此 例 中 ,其 他 15 种 规则 允许 的 约束 (例如 ,约束 {x/Bob，y/Tom |) 组 成 了 规则 的 否定 论据 , 因 
为 训练 数据 中 没有 它们 相应 的 断言 。 

每 一 阶段 ,规则 的 评估 基于 这 些 正 例 和 反例 变量 约束 ,而 我 们 倾向 于 选择 的 是 拥有 较 多 正 
人 鲍 约束 而 较 少 反例 约束 的 规则 。 当 新 文字 加 入 到 规则 中 ,约束 的 集合 将 改变 。 注 意 , 当 一 个 文 
字 加 入 后 , 它 引 人 了 一 个 新 变量 ,那么 规则 的 约束 长 度 将 增长 (例如 , 若 Father (y, z) MABE 
述 规 则 ,那么 初始 的 约束 {x/Victor，y/ Sharon | 将 变 为 更 长 的 | x/ Victor, y/Sharon, z/ 
Bob1)。 还 要 注意 ,如 果 新 变量 可 约束 到 多 个 不 同 的 常量 ,那么 与 扩展 后 规则 相 匹 配 的 约束 的 
数目 将 大 于 与 原始 规则 匹配 的 数目 。 

FOIL 使 用 评估 详 数 以 估计 增加 新 文字 的 效用 , 它 基于 加 入 新 文字 前 后 的 正 例 和 反例 的 
.约束 数目 。 更 精确 地 讲 , 考 虚 某 规则 R 和 一 个 可 能 被 加 到 R 的 规则 体 的 候选 文字 L。 令 R 
为 加 入 文字 工 到 规则 R 后 生成 的 规则 。 Foil _ Gain( 工 , R) 的 值 定义 为 : 


. . _ pi po 
Foil _ Gain( L, R) = :( log pithy loge oe) (10.1) 


其 中 ,po 为 规则 R 的 正 例 约束 数目 , no 为 R 的 反例 约束 数目 , pi 是 规则 R' 的 正 例 约 束 
Ron, 为 规则 尺 ' 的 反例 约束 数目 。 最 后 ,: 是 在 加 入 文字 L BR 后 仍旧 能 覆盖 的 规则 R 的 正 
例 约束 数目 。 当 加 入 上 引入 了 一 个 新 变量 到 R 中 时 ,只 要 在 R' 的 约束 中 的 某 些 约束 扩展 了 
原始 的 约束 ,它们 仍然 能 被 覆盖 。 


该 Foil _ Gain 函数 可 以 用 信息 论 来 简单 地 解释 。 按 照 信息 论 的 理论 , ~ log, 一 下 一 是 为 


Po + no 
了 对 规则 R 能 覆盖 的 任意 正 例 约束 编码 所 需 的 最 小 位 数 。 与 此 相似 , - log 万 + 机 是 对 规则 


R' 能 覆盖 的 任意 正 例 约束 编码 的 最 小 位 数 。 由 于 上 是 RR 能 覆盖 的 正 例 约束 中 仍 保留 在 R' 中 
的 约束 , Foil _ Gain( 虐 , R) 可 被 看 作 : 为 了 编码 R 的 所 有 正 例 约 束 的 分 类 所 需 的 全 部 位 数 由 


FL 带 来 的 减少 。 
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10.5.3 ”学习 递归 规则 集 


在 上 面 的 讨论 中 ,我 们 忽略 了 加 和 到 规则 体 中 的 子 句 为 目标 谓词 本 身 ( 即 在 规则 头 中 出 现 
的 谓词 ) 的 可 能 性 。 然 而 ,如 果 在 Predicates 的 输入 列表 中 包含 目标 谓词 ,FOIL 在 生成 候选 文 
字 时 必须 考虑 它 。 这 允许 它 产 生 递 归 的 规则 一 一 即 在 规则 头 和 规则 体 中 使 用 相同 的 谓词 。 例 
如 ,回忆 Ancestor 关系 的 递归 定义 表示 如 下 : 

IF Parent(x, y) THEN Ancestor (x, y) 

IF Parent(x,z) A Ancestor(z,y) THEN Ancestor (x,y) 

给 定 适当 的 训练 样 例 集 ,这 两 个 规则 的 学 习 可 按照 类 似 于 上 面 GrandDaughter WAR. 
注意 ,只 要 Ancestor 包含 在 Predicates 列表 中 ,后 者 决定 了 在 生成 新 文字 时 要 考虑 的 谓词 ,上 
面 第 二 个 规则 就 包含 在 FOIL 的 每 次 搜索 中 。 当 然 该 特定 规则 是 否 能 被 学 习 取 决 于 这 些 特定 
的 子 句 在 FOIL 的 贪 禁 搜索 渐进 特殊 的 规则 中 能 否 比 其 他 候选 评分 更 高 。Cameron-Jones & 
Quinlan(1993) 讨 论 了 几 个 例子 ,其 中 FOIL 能 成 功 地 发 现 递归 的 规则 集 。 他 们 还 讨论 了 可 能 
产生 的 重要 问题 ,比如 如 何 避 免 在 学 习 规 则 集中 产生 无 限 递 归 。 


10.5.4 FOILS 


概括 地 说 ,FOIL 扩展 了 CN2 的 序列 覆盖 算法 ,处 理 类 似 于 Horn 子 句 的 一 阶 规则 学 习 问 
题 。 为 学 习 这 样 的 规则 ,FOIL 执行 一 般 到 特殊 搜索 ,每 步 增 加 一 个 新 的 文字 到 规则 前 件 中 。 
新 的 文字 可 为 规则 前 件 或 后 件 中 已 有 的 变量 ,或 者 为 新 变量 。 它 在 每 一 步 中 使 用 式 (10.1) 中 
的 Foil _ Gain 函数 在 候选 新 文字 中 进行 选择 。 如 果 新 文字 可 指向 自 标 谓词 ,那么 原则 上 ， 
FOIL 可 学 习 到 递归 规则 集 。 虽 然 这 产生 了 另 一 复杂 性 , 即 避 免 规 则 集 的 无 限 递归 ,但 FOIL 
已 在 某 些 情况 下 成 功 地 用 于 学 习 递 归 规 则 集 。 

在 训练 数据 无 蝇 声 的 情况 下 ,FOIL 可 持续 地 增加 新 文字 到 规则 中 ,直到 它 不 覆盖 任何 反 
例 为 止 。 为 处 理 有 噪声 数据 ,搜索 的 终止 需要 在 规则 精度 .覆盖 度 和 复杂 性 之 间 做 出 折 中 。 
FOIL 使 用 最 小 描述 长 度 的 方法 终止 规则 增长 ,新 的 文字 只 在 它们 的 描述 长 度 短 于 它们 所 解 
释 的 数据 的 描述 长 度 时 才 被 加 入 。 该 策略 的 细节 由 Quinlan(1990) 给 出 。 另 外 ,FOIL 对 每 个 
学 到 的 规则 进行 后 修剪 ,使 用 与 第 3 章 决 策 树 中 相同 的 规则 后 修剪 策略 。 


10.6 ”作为 逆 演 绎 的 归纳 


归纳 逻辑 编程 有 另 一 种 完全 不 同 的 途径 , 它 基 于 一 个 简单 的 事实 : 即 归纳 是 演绎 的 逆 过 程 。 
一 般 来 说 ,机 器 学 习 涉及 的 是 如 何 建立 能 解释 观察 数据 的 理论 。 给 定 某 些 数 据 D 和 一 些 不 完整 
的 背景 知识 8, 学 习 过 程 可 被 描述 为 生成 一 个 假设 ES 8 一 起 解释 了 D。 更 精确 地 讲 , 假 定 
如 通常 那样 训练 数据 D 为 训练 样 例 的 集合 ,每 个 样 例 形式 为 (x;, f(x;));。 这 里 x; 代表 第 i 个 
训练 实例 ,而 f(x;) 代 表 它 的 目标 值 。 那 么 学 习 过 程 就 是 为 了 发 现 一 个 假设 ,使 每 个 训练 实例 
xi 的 分 类 f(x; JMB hax; 的 描述 及 系统 知道 的 任意 背景 知识 B 中 演绎 派生 。 
(Vxis f(xi))EDI(BAhA xi) F f(x) (10.2) 
表达 式 LY 读 作 “Y 从 X 中 演绎 派生 ” ,或 者 为 “X MA (entail) Y”。 式 (10.2) 描 述 了 
学 习 到 的 假设 h 必须 满足 的 约束 , 即 对 每 个 训练 实例 xi ,目标 分 类 f(x;) 必 须 从 B h 和 x; 中 
演绎 派生 。 
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考虑 一 个 例子 ,其 中 待 学 习 的 目标 概念 是 “两 个 人 《u,v) 中 WBF Bo”, ERA Sin 
Child( u,v)。 假 定 给 出 了 单个 正 例 Child ( Bob，Sharon ), 其 中 实例 描述 为 文字 Male 
(Bob), Female( Sharon ) 和 Father( Sharon，Bob)。 进 一 步 假 定 有 背景 知识 Parent(u,v)<— 
Father(u,v)。 可 将 此 情形 按 式 (10.2) 描 述 如 下 : 


xi: Male( Bob), Female( Sharon), Father( Sharon, Bob) 
f(xi): Child( Bob, Sharon) 
B: Parent(u,v)<-Father(u,v) 


在 此 情况 下 ,许多 假设 中 满足 约束 (BAhAx;) 上 f(x;) 的 两 个 假设 为 : 
hi: Child(u,v) <-Father(v,u) 
hy: Child( u,v) <Parent(v,u) 
注意 ,目标 文字 Child( Bob, Sharon) ER h, A x; 涵 蕴 ,不 需要 背景 知识 B。 然 而 对 于 假 
设 h,, 情 况 有 些 不 同 。 目 标 Child (Bob，Sharon) 是 从 BA ho A x; 中 派生 ,而 不 是 单独 的 ho 
A xi 中 派生 。 该 例 说 明了 背景 知识 的 作用 , 即 针 对 给 定 的 训练 数据 扩展 可 接受 的 假设 集合 。 
它 还 说 明 新 的 谓词 (如 , Parent ) 怎 样 引入 到 假设 (如 ,4h,) 中 ,即使 此 谓词 不 在 原来 的 实例 x; 描 
述 中 。 这 一 基于 背景 知识 扩展 谓词 集合 的 过 程 ,通常 称 为 建设 性 归纳 (constructive induction) o 
式 (10.2) 的 意义 在 于 它 把 学 习 问 题 置 于 演绎 推理 和 形式 逻辑 的 框架 之 下 。 对 于 命题 逻辑 
和 一 阶 逻辑 ,有 一 些 已 理解 得 很 好 的 算法 可 自动 演绎 。 有 趣 的 是 ,有 可 能 利用 演绎 推理 的 逆 过 
程 ,以 使 归纳 泛 化 的 过 程 自动 化 。 对 “归纳 可 由 反 转 的 演绎 实现 "这 一 观点 的 洞悉 首先 来 自 19 
世纪 的 经 济 学 家 W.S. Jevons, fh Bi : 
归纳 实际 上 是 演绎 的 逆 操 作 , 而 且 不 能 想像 其 中 一 个 没有 时 , 另 一 个 会 存在 。 因 此 不 存在 
哪 一 个 更 重要 的 问题 。 谁 会 问 加 法 和 减法 中 哪 一 个 是 比较 重要 的 数学 操作 呢 ? 同时 ,一 个 操 
作 和 它 的 逆 操 作 之 间 , 难 度 有 很 大 的 差异 ;…… 必 须 承认 ,归纳 分 析 在 难度 和 复杂 度 方面 都 远 
远大 于 任何 演绎 问题 …… (Jevons 1874) 
本 章 的 剩余 部 分 将 探讨 这 种 把 归纳 看 成 逆 演 绎 的 观点 。 我 们 在 这 里 所 感 兴趣 的 是 一 般 问 
题 是 设计 一 个 北 涵 划算 子 (inverse entailment operator). —*-# MART 0(B,D ) 使 用 训练 
数据 也 = | < xi，f( zi) > | 和 背景 知识 B 作为 输入 ,并 且 输 出 一 个 假设 h 满足 式 (10.2)。 
O(B, D)=h 其 中 (VY (xi, f(xi))E D)(BARA x) EF fla) 
当然 会 有 很 多 不 同 的 假设 h WEC (ai, f(x;))ED)(BAhA xi) 上 f(zxi)。 在 ILP 中 
选择 假设 的 常用 启发 式 规则 依赖 最 小 描述 长 度 准则 ( 见 6.6 节 )。 
将 学 习 任 务 形式 化 为 寻找 一 个 假设 h 使 其 满足 (VY (xi, f(xi))ED)(BAhAzx) Ff 
(xi), 有 许多 有 吸引 力 的 特点 : 
o 这 种 公式 包含 了 一 种 普遍 的 学 习 定义 方法 , 即 寻 找 某 个 一 般 概念 , 它 与 给 定 的 训练 样 例 
相 拟 合 。 其 中 训练 样 例 对 应 没有 背景 知识 B 时 的 特殊 情况 。 
e 此 公式 通过 引入 背景 知识 B ,可 以 对 一 个 假设 何 时 可 被 称 作 “ 拟 合 " 训 练 数据 进行 更 充 
分 的 定义 。 至 此 为 止 ,我 们 一 直 都 仅仅 基于 假设 和 数据 的 描述 来 确定 一 假设 (如 ,神经 
网 络 ) 是 否 拟 合 数据 ,而 不 依赖 于 学 习 的 任务 领域 。 相 反 ,这 种 形式 允许 领域 特定 的 背 
景 信息 B 成 为 “ 拟 合 "定义 的 一 部 分 。 确 切 地 讲 ,h RESC) A BAA xi PRAM 
生 时 , 拟 合 训练 样 例 (x;, f(x;))。 
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通过 引入 背景 知识 B, 该 公式 要 求学 习 算 法 使 用 这 一 背景 信息 来 引导 h 的 搜索 ,而 不 是 只 搜 
索 语法 上 合法 的 假设 空间 。 下 面 章节 中 描述 的 逆 归 纳 过 程 就 以 这 种 形式 使 用 了 背景 知识 。 
同时 ,按照 这 种 公式 的 归纳 逻辑 编程 过 到 了 几 个 实践 上 的 困难 。 

o 对 (VY 《xi, f(xi))E D)(BAhAzxi) 上 f(x;) 的 要 求实 质 上 不 能 处 理 有 噪声 数据 。 问 题 
在 于 ,该 表达 式 不 允许 在 观察 到 实例 x; 和 其 目标 值 f(x;) 中 出 现 差错 的 可 能 性 。 这 样 
的 差错 可 能 产生 对 h 的 不 一 致 约束 。 和 遗憾 的 是 ,多 数 形式 逻辑 框架 完全 没有 能 力 在 给 
定 不 一 致 断言 时 区 分 出 真 和 假 来 。 

e 一 阶 逻 辑 语言 的 表征 力 太 强 , 而 且 满 足 (V 《x;, f(x;))E D)(BAhAx;) 上 f(z;) 的 假 
设 数量 太 多 ,以 至 于 假设 空间 的 搜索 在 一 般 情形 下 难以 执行 。 许 多 近期 的 工作 已 寻求 
受 限 形式 的 一 阶 表 达 式 或 其 他 二 阶 表达 式 ,目的 是 改进 假设 空间 搜索 的 易 处 理性 。 

o 尽管 直 党 上 背景 知识 可 有 助 于 限制 假设 的 搜索 ,在 多 数 ILP 系统 中 (包括 所 有 本 章 讨论 
的 ) ,假设 空间 搜索 的 复杂 度 会 随 着 背景 知识 的 增加 而 增高 (然而 ,第 11 章 和 第 12 章 中 
一 些 算法 使 用 背景 知识 来 减 小 而 不 是 增加 样本 复杂 度 )。 

下 一 节 讨 论 一 个 很 普遍 的 逆 涵 绑 算 子 , 它 通过 反 转 的 演绎 推理 规则 来 构造 假设 。 


10.7 ŽAR 


自动 演绎 的 一 般 方法 是 用 Robinson(1965) 提 出 的 归纳 规则 (resolution rule), JA 24 AL Æ 
一 阶 逻 辑 中 一 个 合理 且 完 备 的 演绎 推理 规则 。 因 此 ,可 以 想到 这 样 的 问题 :是 否 可 以 通过 反 转 
归纳 规则 来 形成 逆 涵 蕴 算 子 。 回 答 是 肯定 的 ,而 且 正 是 这 个 算 子 形成 了 Cicor 程序 的 基础 。 
(Muggleton & Buntine 1988), 

介绍 归纳 规则 最 容易 的 方法 是 以 命题 表示 的 形式 , 它 可 以 被 扩展 到 一 阶 表示 中 。 令 工 为 
任意 一 个 命题 文字 ,并 令 PAR 为 任意 命题 子 句 。 归 纳 规则 为 : 


P V L 
TL V R 
P V R 


它 可 理解 为 :给 定 线 上 的 两 个 子 句 ,得 到 线 下 的 子 句 。 直 觉 上 归纳 规则 是 理所当然 的 。 给 
定 两 个 断言 PV L 和 一 LV R, 显 然 上 或 一 L 中 必 有 一 个 为 假 。 因 此 ,P 或 R 中 必 有 一 个 为 
真 。 因 此 结论 PV R 肯定 是 满足 的 。 

命题 归纳 算 子 的 一 般 形式 在 表 10-5 中 描述 。 给 定 两 个 子 句 C1 和 C;, 归 纳 算 子 首先 确定 
文字 工 是 否 以 正文 字形 式 出 现在 一 个 子 名 中 ,并 以 负 文 字形 式 出 现在 另 一 子 句 中。 然后 得 到 
如 上 公式 中 的 结论 。 例 如 ,图 10-2 左 侧 的 归纳 算 子 。 给 定子 句 C 和 C: ,第 一 步 确定 文字 L 
= 一 KnowMaterial, CE Ci 中 出 现 ,而 它 的 负 文 字 一 (一 KnowMaterial) = Know Materi- 
al EC 中 出 现 。 所 以 结论 是 一 子 句 ,其 形式 为 文字 Ci - |L} = PassExam MC- |L) 
= 一 Study 的 联合 。 举 另 一 个 例子 ,应 用 归纳 规则 到 子 句 Cl = AVBVCV—-DAC,=— 
BV EVF 得 到 结果 为 子 句 4VCV DVEVF。 

表 10-5 “归纳 算 子 (命题 形式 ) 


1. 给 定 初始 子 句 Ci 和 C ATA Ci 中 寻找 一 个 文字 LIAO LURE C 中 
2. 通过 合并 C 和 Cs 中 的 除了 工 和 一 革 外 的 所 有 文字 ,形成 归纳 式 C。 更 精确 地 ,出 现在 结果 C 中 的 文字 集合 为 : 
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( 续 ) 


C=(C1- {LDU(C-{™ LI) 
其 中 ,UU 表示 集合 并 ," - "表示 集合 差 


注 : BEF Cy 和 C2。 归 钠 算 子 构造 出 一 子 和 句 C 使 CIA C2 上 C。 
6 : KnowMaterial VU Study 


G KnowMaterial  V Study 


9 :PassExam VV 一 KnowhMarerial 









9 : PassExam \ 一 KnowMarerial 


C: PassExam \ Study C: PassExam V Study 


左边 为 应 用 归纳 规则 (演绎 的 ) 从 给 定子 名 C 和 C: 中 推理 出 子 句 C。 右 边 为 其 北 过 程 的 应 用 (归纳 的 ) ,从 C 
和 Ci 中 推论 出 Cro 


图 10-2 ”归纳 和 逆 归 纳 的 例子 


很 容易 用 归纳 算 子 的 逆转 来 形成 一 执行 归纳 推理 的 逆 涵 蕴 算 子 0(C，C1)。 一 般 来 说 ， 
逆 涵 蕴 算 子 必须 在 给 定 归 纳 式 C 和 一 初始 子 句 Ci 时 推导 出 另 一 初始 子 句 C,。 考 虑 一 个 例 
子 , 给 定 归纳 式 C = 4 V 8 且 初 始 子 句 Cl = BV D。 如 何 推导 出 子 句 Cs 以 使 Ci AC HC? 
首先 ,注意 由 归纳 算 子 的 定义 ,任意 出 现在 C 中 但 不 在 Ci 中 的 文字 必须 已 在 C 中 出 现 。 在 
这 个 例子 中 , 它 表 示 C 必须 包含 文字 4 。 其 次 ,在 Ci 中 出 现 但 不 在 C 中 的 文字 必 为 归纳 规 
则 移 去 了 的 文字 ,因此 它 的 负 文 字 必须 在 C 中 。 在 此 例 中 , 它 表 示 C 必须 包含 文字 TD. 
因此 C,=AV 一 D。 读 者 可 以 很 容易 地 验证 ,应 用 归纳 规划 到 C, 和 C 确实 产生 了 所 希望 
的 归纳 式 C。 “ 
注意 在 上 例 中 C 有 另 一 种 可 能 的 解 。 确 切 地 讲 , C 可 以 是 更 特殊 的 子 句 4V 一 DV B。 
此 解 与 第 一 个 解 的 不 同 在 于 C, 中 包含 了 一 个 Ci 中 出 现 的 文字 。 从 中 可 得 到 的 一 般 论 点 在 
于 ,递归 纳 是 不 确定 的 , 即 可 能 有 多 个 子 句 C: 使 C 和 C, 产生 归纳 式 C。 在 其 中 进行 选择 的 
一 个 启发 式 方法 为 偏好 更 短 的 子 句 ,与 此 相应 的 是 :假定 Cs 与 C1 没有 共同 的 文字 。 如 果 引 
人 这 种 对 短 子 句 的 偏好 ,对 逆 归 纳 过 程 的 一 般 描 述 见 表 10-6。 
10-6 ” 逆 归 纳 算 子 (命题 形式 ) 





1. 给 定 初 始 子 句 C 和 C ,寻找 一 个 文字 工 , 它 出 现在 子 句 Ci 中 但 不 出 现在 C 中 
2. 通过 包含 下 列 的 文字 ,形成 第 二 个 子 句 C，: 
C2=(C-(C,-1 LE) Ut WL) 





注 ; 给 定 两 子 句 CHC, CHER Ci CACCE Co 
我 们 可 以 基于 如 逆 归 纳 这 样 的 逆 涵 蕴 算 子 开发 出 规则 学 习 算法 来 。 确 切 地 讲 , 学 习 算 法 


可 使 用 逆 涵 荀 来 构造 出 假设 ,此 假设 与 背景 知识 一 起 涵 蕴 训练 数据 。 一 种 策略 是 使 用 序列 秽 
盖 算 法 ,循环 地 以 这 种 方法 学 习 Horn 子 句 集 。 在 每 次 循环 中 ,算法 选择 没有 被 以 前 学 习 到 的 
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子 句 覆盖 的 一 个 训练 样 例 (x;, f(xi))。 然 后 应 用 归纳 规则 来 生成 满足 (BA hi A xi) 上 f(xi) 
的 候选 假设 hh, 其 中 B 为 背景 知识 加 上 以 前 循环 中 学 到 的 任意 子 句 。 注 意 ,这 是 一 个 样 例 驱 
动 的 搜索 ,因为 每 个 候选 假设 的 建立 是 为 了 覆盖 一 特定 样 例 。 当 然 如 果 存 在 多 个 候选 假设 , 那 
么 在 其 中 选择 的 策略 是 选取 在 其 他 样 例 上 也 有 最 高 精度 的 假设 。Cicor 程序 使 用 了 结合 这 种 
序列 覆盖 算法 的 逆 归 纳 ,通过 它 与 用 户 进行 交互 ,获得 训练 样 例 并 引导 它 在 可 能 的 归纳 推理 步 
又 的 巨大 空间 中 的 搜索 。 然 而 Cicor 使 用 了 一 阶 表示 而 不 是 命题 表示 。 下 面 我 们 描述 为 处 理 
一 阶 表示 所 需 对 归纳 规则 的 扩展 。 


10.7.1 一 阶 归纳 


归纳 规则 可 以 很 容易 地 扩展 到 一 阶 表示 。 如 命题 逻辑 中 一 样 , 它 需要 输入 两 个 子 句 ,输出 
第 三 个 子 句 。 它 与 命题 归纳 的 关键 不 同 在 于 ,这 一 过 程 如 今 要 基于 合 一 (unifying) 置 换 操作 。 
定义 置换 (substitution) 为 变量 到 项 的 任意 映射 。 例 如 ,置换 0 = |x/Bob, y/z RER 
x 替换 为 项 Bob ,而 变量 y 替换 为 项 z。 使 用 符号 Wo 代表 应 用 到 一 置换 0 到 某 表达 式 W 的 
结果 。 例 如 , 若 工 是 文字 Father(x, Bill), H 0 为 上 述 的 置换 , 则 LO = Father( Bob, Bill). 
如 果 L109 = 220, 则 称 0 HAXE L 和 OL, 的 合 一 置换 (unifying substitution). 例如 , 若 
L, = Father( x,y), L2= Father( Bill, z), H. 0 = | x/ Bill, z/y} ,那么 0 Æ L ML 的 合 一 
置换 ,因为 1,0 = L20 = Father( Bill1，y)。 合 一 置换 的 意义 是 :在 归纳 的 命题 形式 中 ,两 子 句 
C1 和 C, 的 归纳 式 的 获得 是 通过 确定 C1 PAFA LEHELE C 中。 在 一 阶 归 纳 中 , 它 推 
广 为 从 子 句 Ci 中 寻找 一 文字 L 和 在 Cs 中 寻找 文字 L,, 使 得 可 找到 对 于 L MOL, 的 某 合 
一 置换 b( 即 ,使 110 = 一 上 29)。 归 纳 规则 然后 按 下 面 的 等 式 建立 归纳 式 C: 
C=(C,-1L,})@U(C2- | L2})0 (10.3) 
归纳 规则 的 一 般 描 述 见 表 10-7。 为 说 明 它 ,假定 C1 = White (x )< Swan (x) C= Swan 
( Fred )。 为 应 用 归纳 规则 ,首先 将 Ci 等 价 地 表示 为 子 句 的 形式 C1 = White(x)V 一 Swan(x)。 然 
后 可 应 用 归纳 规则 。 第 一 步 , 先 找到 Ci 中 的 文字 Li = 一 Swan(x) 和 Oà 中 的 文字 Ly = Swan 
(Fred)。 如 果 选 择 合 一 置换 0 = | x/ Fred} , 则 两 个 子 句 满足 L10 = 一 L290 = 一 Swan(Fred)。 因 此 ， 
结论 C HCC- | L1})@ = White( Fred) 和 (C, - | L2})6 = 0, Bl C= White( Fred). 


表 10-7 归纳 规则 (一 阶 形式 ) 


1. 寻找 Cl 中 的 文字 Li, C2 中 的 文字 L, ARER 6, 使 得 L109 = L0 
2. 通过 包含 C19 和 C20 PRT L0 和 一 L260 以 外 的 文字 ,形成 归纳 式 C。 更 精确 地 讲 , 出 现在 结论 C 中 的 文字 
RBA: 
Ca(C,-{L,})6UCC,- 1 L218 


10.7.2 逆 归 纳 :一 阶 情 况 


我 们 可 以 用 分 析 法 推导 出 逆 归 纳 算 子 ,方法 是 通过 对 定义 归纳 规则 的 式 (10. 3) 进 行 代数 
操作 。 首 先 ,注意 式 (10.3) 中 的 合 一 置换 9 可 被 惟一 地 分 解 为 9, 和 9。, 其 中 9 = 01,0, 包含 
BRED C1 中 变量 的 所 有 置换 ,而 9, 包含 涉及 C 中 变量 的 所 有 置换 。 该 分 解 的 合理 性 在 
于 C1 和 C, 总 是 开始 于 不 同 的 变量 名 (因为 它们 是 不 同 的 全 称 量化 陈述 )。 使 用 6 的 这 种 分 
解 ,可 将 式 (10.3) 重 新 表达 为 : 
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C=(C1- 1£,})0,U (C2 - | L2})02 

记 住 ,这 里 的 减 号 ” - ”代表 集合 差 。 现 在 如 果 限 制 逆 归 纳 算 子 为 推理 出 的 C, 中 没有 与 

C, 共同 的 文字 (表示 偏好 最 短 的 C 子 句 ) ,那么 可 将 上 式 写 为 : 
C-(C,- 1 Ly,})0, = (C2- {L231)0, 

最 后 可 使 用 归纳 规则 的 定义 Ly = 一 L1010，-!, 解 出 Cs 来 得 到 : 

逆 归 纳 : 

C2=(C-(C -DO0D01IU — 10,6273} (10.4) 

K(10. OB TPB BHAA. MEARE , Hse ee Ee HEY. 
确切 地 讲 ,在 应 用 它 的 过 程 中 ,一 般 可 找到 待 归 纳 的 子 句 Cl 和 置换 0 和 02 的 多 种 选择 。 每 
一 组 选择 都 产生 一 个 不 同 的 CC 解 。 

图 10-3 显示 了 此 道 归纳 规则 应 用 在 一 个 简单 例子 上 的 多 个 步骤 。 在 图 中 ,我 们 希望 根据 
给 定 的 训练 数据 D = GrandChild ( Bob, Shannon) 和 背景 信息 B = | Father ( Shannon, 
Tom), Father( Tom, Bob) 学习 到 目标 谓词 GrandChild(y, x ) 的 规则 。 考 虑 图 10-3 Ppa 
纳 树 的 最 下 面 一 步 。 这 里 ,我们 设置 结论 C 为 训练 样 例 GrandChild (Bob, Shannon) ,并 且 从 
背景 信息 中 选择 子 句 Cl = Father( Shannon，Tom )。 为 应 用 逆 归 纳 算 子 , 对 于 文字 L 只 有 
一 种 选择 , 称 为 Father (Shannon, Tom )。 假 定 我 们 选择 逆 置 换 01-' = || A 02-1= | Shan- 
non/x|。 在 此 情况 下 ,得 到 的 子 句 Cs HPAC- (C {511)01)0,7!1= (C0) 0.7! = 
GrandChild( Box , x) 和子 名 | 一 L1010,-! = Father (x, Tom ) 的 联合 。 因 此 结果 为 子 句 
GrandChild( Bob , x) V 一 Father(x, Tom ), 或 等 价 的 子 句 GrandChild( Bob, x )<—Father(x, 
Tom )。 注 意 这 个 一 般 规则 与 Ci 一 起 涵 蕴 了 训练 样 例 GrandChild( Bob, Shannon). 

以 相似 的 方式 ,推理 得 到 的 子 句 可 作为 第 二 个 归纳 步 中 的 结论 C, 如 图 10-3 所 示 。 在 这 
两 步 中 的 每 一 步 中 都 可 能 有 多 个 输出 ,这 取决 于 对 置换 的 选择 (见习 题 10.7)。 在 图 10-3 的 
例子 中 ,特定 的 选择 产生 了 直觉 上 可 满足 的 最 终 子 句 GrandChild(y, x )< Father(x,z) A 
Father((z,y)o 


Father (Tam, Bob) *GrandChild( y,x) v ™ Father(x,z) V ~ Father(z,y) 


{Bob/y, Tom/z} 


Father (Shannon, Tom) ; GrandChild(Bob,x) v ~ Father(x,Tom) 


{Shannon/x} 


GrandChild( Bob, Shannon) 


其 中 带 方 框 的 子 名 为 推理 步 的 结果 。 在 每 一 步 , C 是 位 于 底部 的 子 句 , C 是 左边 的 子 句 , C 是 右边 带 方 框 的 子 
句 。 在 这 两 个 推理 步 中 ,0, 都 是 空置 换 , 而 o EREKE C: 下 方 。 注 意 最 终 的 结论 (最 右上 角 的 带 方 框 子 
句 ) 是 Hom 子 句 GrandChild(y, x)+-Father(x, z) A Father(z，y) 的 另 一 种 形式 


10-3 多 步 逆 归纳 
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10.7.3 逆 归 纳 小 结 


概括 地 讲 , 逆 归纳 提供 了 一 种 一 般 的 途径 以 自动 产生 满足 约 东 (有 AAAzi) 上 + f(x;) 的 假 
设 h。 这 是 通过 道 转 式 (10.3) 给 出 的 一 般 归 纳 规则 得 到 的 。 从 此 归纳 规则 中 解 出 子 句 Ca, 
式 (10.4) 中 的 逆 归 纳 规则 很 容易 推导 出 。 

给 定 一 组 开始 子 句 ,可 通过 重复 应 用 此 逆 妇 纳 规 则 生成 多 个 假设 。 注 意 , 道 归 纳 规 则 具有 
一 个 优点 , 它 只 生成 满足 (BA hA xi) 上 f(zxi) 的 假设 。 相 反 ,FOIL 的 生成 再 测试 (generate _ 
and _ test) 搜 索 在 每 一 搜索 步 生 成 多 个 假设 ,包括 一 些 不 满足 此 约束 的 。 然 后 FOIL 通过 考虑 
数据 D 来 在 这 些 假设 中 做 出 选择 。 由 于 这 一 差异 ,我 们 可 期 望 基于 逆 归 纳 的 搜索 更 有 和 针对 性 
且 更 有 效 。 然 而 实际 未 必 如 此 。 一 个 原因 是 逆 妇 纳 算 子 在 任意 一 步 生 成 它 的 假设 时 ,只 能 考 
虑 可 用 数据 中 的 一 小 部 分 。 而 FOIL 考虑 所 有 的 可 用 数据 ,在 其 按 语法 生成 的 假设 中 进行 选 
择 。 使 用 逆 涵 列 和 使 用 生成 再 测试 两 种 搜索 策略 的 差别 仍 是 一 个 研究 主题 。Srinivasan 等 
(1995) 提 供 了 对 这 两 种 方法 的 实验 性 比较 。 


10.7.4 泛 化 .9- 包 容 和 涵 蕴 


前 一 节 指 出 了 归纳 和 北 涵 列 之 间 的 联系 。 由 于 以 前 着 重 于 讲述 在 假设 搜索 中 的 一 般 到 特 
殊 序 ,那么 有 必要 研究 more _general _than 关系 和 逆 涵 区 之 间 的 联系 。 为 说 明 这 种 关系 ,考虑 
如 下 的 定义 : 
© more _general .than :第 2 章 中 的 more _general than _or equal _toKR(>,)E MA: 
给 定 两 布尔 信函 数 有 (x) 和 ye) RAIEK hy > chy 当 且 仅 当 (V x) h(x) 一 三 (x)。 此 
>, 关系 被 用 于 许多 学 习 算法 中 以 引导 假设 空间 的 搜索 。 
© 0- 包 容 (0-subsumption) :考虑 两 个 子 句 C; 和 Gi, 它们 的 形式 都 是 HV LV... VL,, 其 
HW 为 一 正文 字 , 而 L 为 任意 文字 。 称 子 句 C6 - 包容 子 句 Ci, 当 且 仅 当 存在 一 个 置 
换 使 COC Ci( 这 里 我 们 将 任意 子 句 C 描述 为 其 析 取 式 中 各 文字 的 集合 )。 该 定义 见 
Plotkin(1970) 。 
© 涵 区 (entailment) :考虑 两 个 子 句 C 和 Ci, 子 句 C; RABE A CGE C; 上 -Ci) 当 
且 仅 当 Ci 从 C 中 演绎 派生 。 
这 三 个 定义 之 间 有 什么 内 在 联系 ? BES, 的 定义 重新 表示 为 一 阶 形式 ,如 另 两 个 定 
义 一 样 。 如 果 对 某 目标 概念 ( x ) 考 虑 一 布尔 值 假设 h(x), 其 中 h(x) 表示 为 文字 的 合 取 , 那 
么 可 重新 表示 此 假设 为 子 句 : 
c(x)<h(x) 
这 里 我 们 遵循 通常 的 PRoLoc 解释 , 即 x 若 不 能 被 证 明 为 正 例 时 , 则 x 被 分 类 为 反例 。 因 
此 ,可 看 出 前 面 定义 的 > 。 应 用 于 Horn 子 句 的 前 件 ( 或 规则 体 )。Horn 子 句 隐 含 的 后 件 为 目 
标 概念 c(x )。 
>, 定义 和 4 包容 定义 之 间 的 关系 是 什么 ? 注意 ,如 果 hs ho, MFE Cl: cl(x) < hy 
(x) 是 -URTA Cela) < 二 ji2(x)。 更 进一步 ,即使 在 子 句 有 不 同 的 头 部 时 ,0- 包 容 也 可 成 
立 。 例 如 ,下 面 的 情形 中 子 句 4 OAT AB: 
A: Mother( x,y) < Father(x, z) A Spouse(z, y) 
B: Mother(x, Louise) < Father(x, Bob) A Spouse( Bob, y) A Female( x) 
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因为 如 果 选 择 0 = | y/Louise, z/Bob} N 49c B。 这 里 的 关键 区 别 在 于 >。 隐 含 假定 了 
两 个 子 句 的 头 部 是 相同 的 ,而 & 包 容 可 在 子 句 头 部 不 同时 成 立 。 

最 后 ,98- 包 容 是 涵 蕴 的 一 种 特殊 形式 。 即 ,如 果子 句 4 和 包容 子 句 已 , 则 4 上 B。 然 而 ,我 
们 可 找到 这 样 的 4 和 8B, 使 4 上 8B 但 4 并 不 4. 包容 8。 例如 下 面 两 个 子 句 : 

A: Elephant( father _of(x)) < Elephant ( x) 

B: Elephant( father _of( father _of(y))) —Elephant( y) 

其 中 , father _of(x ) 为 一 函数 ,代表 x 的 父亲 。 注 意 虽然 B 可 由 4 得 到 证 明 , 却 不 存在 
置换 9 使 46- 包容 B。 

如 这 些 例子 所 示 ,前 面 对 more _ general _than 的 定义 是 9 包容 的 一 种 特殊 情况 ,而 0-40 
容 又 是 涵 蕴 的 特殊 情况 。 因 此 ,通过 泛 化 和 特 化 假设 来 搜索 假设 空间 比 用 一 般 的 逆 涵 蕴 算 子 
来 搜索 更 为 局 限 。 遗 憾 的 是 , 逆 涵 蕴 这 种 最 一 般 的 形式 可 产生 无 法 处 理 的 搜索 。 然 后 中 间 的 
8- 包容 的 定义 提供 了 位 于 more _ general _ than 和 涵 蕴 中 间 的 一 种 概念 。 


10.7.5 “PRoGoL 


虽然 对 于 生成 候选 假设 , 逆 归 纳 是 一 种 很 吸引 人 的 方法 。 在 实践 中 它 很 容易 导致 候选 假 
设 的 组 合 爆炸 。 另 一 种 途径 是 只 使 用 逆 涵 芍 来 生成 一 个 最 特殊 假设 , 它 与 背景 信息 一 起 涵 蕴 
观察 的 数据 。 然 后 ,这 个 最 特殊 假设 可 用 于 确定 假设 空间 的 一 般 到 特殊 搜索 边界 ,与 FOIL 中 
使 用 的 搜索 一 样 , 但 多 了 一 个 限制 :只 考虑 比 此 边界 更 一 般 的 假设 。 该 方法 被 用 于 PRocoL 系 
统 , 它 的 算法 可 概述 如 下 : 
1) 用 户 指定 使 用 一 个 受 限 的 一 阶 表示 语言 为 假设 空间 H。 这 些 限制 用 “ 模 态 声明 ” 
(mode declaration) 来 描述 , 它 允 许 用 户 指定 要 考虑 的 谓词 和 函数 符号 ,以 及 它们 的 参 
考 类 型 和 格式 。 
2) PRocor 使 用 序列 覆盖 法 来 从 H 中 学 习 一 组 覆盖 数据 的 表达 式 。 对 于 每 个 还 没 被 这 
些 学 到 的 表达 式 覆 盖 的 样 例 (x;, f(x;)), 它 首先 寻找 H PRRI h, ECB A hi 
Aai) 上 f(x;)。 更 精确 地 讲 , 它 先 找到 能 通过 应 用 次 归纳 规则 涵 蕴 (x;) 的 假设 ， 
在 其 中 计算 出 最 特殊 的 假设 ,从 而 近似 得 到 hio 
3) 然后 PRocor 在 这 个 由 最 一 般 假设 和 第 2 步 中 得 到 的 特殊 边界 h; 所 界定 的 假设 空间 
中 执行 了 一 般 到 特殊 搜索 。 在 此 假设 集合 中 , 它 寻 找 有 最 小 描述 长 度 (由 文字 的 数量 
度量 ) 的 假设 。 该 部 分 的 搜索 是 由 像 4* 那样 的 启发 式 规则 引导 的 , 它 的 修剪 操作 可 
在 没有 修剪 掉 最 短 假设 的 风险 下 进行 。 
PRocoL 算法 的 细节 见 Muggleton(1992, 1995). 


10.8 小 结 和 补充 读物 


本 章 的 要 点 包括 : 

e 序列 镍 盖 算 法 学 习 析 取 的 规则 集 ,方法 是 先 学 习 单个 精确 的 规则 ,然后 移 去 被 此 规则 覆 
盖 的 正 例 , 再 在 剩余 样 例 上 重复 这 一 过 程 。 它 提供 了 一 个 学 习 规 则 集 的 有 效 的 贪 禁 算 
法 ,可 作为 由 顶 向 下 的 决策 树 学 习 算法 (如 ID3) 的 替代 算法 。 决 策 树 算法 可 被 看 作 并 
行 覆盖 ,与 序列 覆盖 相对 应 。 

e 在 序列 覆盖 算法 中 ,已 研究 了 多 种 方法 以 学 习 单个 的 规则 。 这 些 方法 的 不 同 在 于 它们 
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考查 规则 前 件 空间 的 策略 不 同 。 一 个 很 流行 的 .在 CN2 程序 中 使 用 的 方法 是 执行 一 般 
到 特殊 的 柱状 搜索 ,渐进 地 生成 并 测试 更 特殊 的 规则 ,直到 找到 一 个 足够 精确 的 规则 。 
其 他 的 方法 从 特殊 到 一 般 进 行 假设 搜索 ,使 用 样 例 驱 动 而 不 是 生成 并 测试 ,并 且 应 用 了 
不 同 的 统计 量度 的 规则 精度 来 指引 搜索 。 

e 一 阶 规则 集 ( 即 包含 变量 的 规则 ) 提 供 了 一 种 表征 能 力 很 强 的 表示 。 例 如 , 编程 语言 
PRoLoc 使 用 一 阶 Horn 子 句 序列 来 表示 一 般 的 程序 。 因 此 ,学习 一 阶 Horn 子 句 的 问题 
也 常 被 称 为 归纳 逻辑 编程 的 问题 。 

o 学 习 一 阶 规则 集 的 方法 是 将 CN2 中 的 序列 覆盖 算法 由 命题 形式 扩展 到 一 阶 表示 。 该 
方法 在 FOIL 程序 中 例 示 , 它 可 学 习 包 括 简 单 递归 规则 集 在 内 的 一 阶 规则 集 。 

. @ 学 习 一 阶 规则 的 另 一 方法 基于 一 个 发 现 : 即 归 纳 是 演绎 的 逆转 。 换 言 之 ,归纳 的 问题 是 
寻找 一 个 假设 满足 下 面 的 约束 。 
CW (a5, f(xi))E DBAhA xi) F f(x) 

其 中 ,中 是 一 般 背 景 信息 , x1... x, 是 训练 数据 D 中 实例 的 描述 ,而 f(x1)... f(x,) 为 
训练 实例 的 目标 值 。 

9 一 些 程序 遵循 了 归纳 是 演绎 的 逆转 的 观点 ,通过 运用 熟知 的 演绎 推理 的 道 算 子 来 搜索 

假设 。 例 如 CrcoL 使 用 的 着 归纳 是 归纳 算 子 的 道 转 ,而 归纳 是 普遍 用 于 机 器 定理 证 明 
的 一 种 推理 规则 。PRocoL 结合 了 逆 涵 蕴 策 略 和 一 般 到 特殊 策略 来 搜索 假设 空间 。 

学 习 关 系 描述 早期 的 工作 包括 Winston(1970) 著 名 的 程序 , 它 学 习 如 “arch” 这 样 的 概念 
的 网 络 式 描述 。Banerji (1964，1969) 的 工作 和 Michalski 的 AQ 算法 系列 工作 (如 , Michalski 
1969, Michalski et al. 1986) 是 最 早 将 逻辑 表示 用 于 学 习 问 题 的 研究 之 一 。Plotkin(1970 ) 的 
和 -包容 定义 较 早 地 对 归纳 和 演绎 之 间 的 关系 进行 了 形式 化 。Vere(1975) 也 研究 了 学 习 的 逻辑 
表示 问题 , 且 Buchanan(1976) 的 META-DENDRAL 程序 可 学 习 分 子 结构 中 可 在 质谱 仪 中 被 分 
割 的 部 分 的 关系 描述 。 该 程序 成 功 地 发 现 了 一 些 有 用 的 规则 ,它们 在 化 学 学 术 领 域 被 公布 。 
Mitchell(1979) 的 候选 消除 变型 空间 算法 被 应 用 于 同样 的 化 学 结构 的 关系 描述 。 

随 着 20 世纪 80 年 代 中 期 PRoLoc 语言 的 普及 ,研究 人 员 开 始 深 入 研究 Horn 子 句 表示 的 
关系 描述 。 较 早 的 学 习 Horn 子 句 的 工作 包括 Shapiro(1983) 的 MIS 和 Sammut & Banerji 
(1986) 的 MARVIN。 这 里 讨论 的 Quinlan(1990) 的 FOIL 算法 出 现 后 ,很 快 随 之 产生 了 多 个 应 
用 一 阶 规则 的 一 般 到 特殊 搜索 的 算法 ,包括 MFOIL (Dzeroski 1991)、FOCL (Pazzani et al. 
1991) .CLAUDIEN (De Raedt & Bruynooghe 1993) 和 MARKUS(Grobelnik 1992), FOCL 算 
法 在 第 12 章 中 描述 。 

学 习 Horn 子 句 的 另 一 条 研究 路 线 是 通过 逆 涵 蕴 , 它 由 Muggleton & Buntine(1988) 提 出 ， 
其 基础 是 Sammut & Banerji(1986) 和 Muggleton(1987) 中 类 似 的 想法 。 此 路 线 上 最 近 的 工作 
着 重 于 研究 不 同 的 搜索 策略 和 限制 假设 空间 以 使 学 习 过 程 更 易于 处 理 的 方法 。 例 如 , Kietz & 
Wrobel(1992) 使 用 在 其 RDT 程序 中 规则 模式 来 限制 学 习 过 程 中 可 考虑 的 表达 式 的 形式 。 
Muggleton & Feng( 1992) 130 T H —Br eR PY ij- determinate 文字 。Cohen(1994) 讨 论 了 
GRENDEL 程序 , 它 接受 一 个 显 式 的 语言 描述 输入 , 以 描述 子 句 体 , 从 而 允许 用 户 显 式 地 约束 
假设 空间 。 

Lavrac & Dzeroski( 1994) 提 供 了 归纳 逻辑 编程 的 一 个 可 读 性 很 强 的 教材 。 近期 其 他 有 用 
的 专题 报考 和 文集 包括 (Bergadano & Gunetti 1995, Morik et al. 1993, Muggleton 1992, 
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1995b)。Wrobel(1996) 的 综述 也 提供 了 该 领域 的 一 个 好 材料 。Bratko & Muggleton (1995) 概 

述 了 近期 ILP 在 一 些 重要 问题 上 的 应 用 。 一 系列 的 ILP 方面 的 年 度 专题 讨论 会 也 是 近期 研 

究 论 文 的 很 好 来 源 ( 如 ,De Raedt 1996)。 

习题 

10.1 考虑 一 个 如 CN2 那样 的 序列 覆盖 算法 和 一 个 如 ID3 那样 的 并 行 履 盖 算法 。 两 个 算法 
都 被 用 于 学 习 一 目标 概念 , 它 定义 在 由 n 个 布尔 属性 合 取 表示 的 实例 上 。 如 果 ID3 学 
习 到 深度 为 d 的 平衡 决策 树 , 它 将 包含 24 - 1 个 不 同 的 决策 结 点 ,而 且 在 建立 其 输出 
假设 时 做 出 24 - 1 次 不 同 选 择 。 如 果 该 树 被 重新 表示 为 一 个 析 取 规则 集 ,可 形成 多 少 
规则 ? 每 个 规则 拥有 多 少 前 件 ? 一 个 序列 履 盖 算法 为 学 习 到 同样 的 规则 集 需 做 出 多 少 
次 不 同 的 选择 ? 如 果 给 定 相同 的 训练 数据 , 哪 一 个 系统 你 认为 更 容易 出 现 过 度 拟 合 ? 

10.2 改进 表 10-2 的 LEARN-ONE-RULE 算法 ,使 它 能 学 习 前 件 中 包含 实数 属性 立 值 的 规则 (如 
temprature > 42)。 指 出 新 的 算法 可 从 表 10-2 中 做 哪些 修改 得 到 。 提 示 : 考 虑 在 决策 
树 中 这 是 怎样 完成 的 。 

10.3 改进 表 10-2 的 LEARN-ONE-RULE 算法 ,使 它 能 学 习 的 规则 的 前 件 中 可 包含 类 似 于 na- 
tionality€ | Canadian, Brazilian | HAR, 即 离散 值 属性 可 取 某 指定 集合 中 任意 值 。 
修改 后 的 程序 应 探索 包含 所 有 这 样子 集 的 假设 空间 。 指 出 新 的 算法 可 从 表 10-2 中 做 
哪些 修改 得 到 。 

10.4 考虑 实现 LEARN-ONE-RULE 搜索 假设 空间 时 可 选 的 策略 ,确切 地 讲 , 考 虑 下 列 搜索 过 程 
属性 : 
(a) 生成 并 测试 ve. 数据 驱动 
(b) 一 般 到 特殊 vs. 特 殊 到 一 般 
(c) 序列 覆盖 vs. 3477 
讨论 表 10-1 和 10-2 中 算法 中 所 做 选择 的 好 处 。 对 于 搜索 策略 中 的 这 三 种 属性 ,讨论 
选择 另 一 方案 时 的 影响 (正面 的 和 负面 的 )。 

10.5 ”应 用 命题 形式 的 逆 归 纳 到 子 句 C= AV B,C1= AV BV GCG。 给 出 C, 的 至 少 两 种 可 能 结果 。 

10.6 应 用 逆 归 纳 到 子 句 C= R(B, x) VP(x, AVAL C= S(B, y)V R(z,%)。 给 出 Cy 
的 至 少 四 种 可 能 结果 。 这 里 4 和 8B 为 常量 ,x My 为 变量 。 

10.7 考虑 图 10-3 中 最 下 面 的 逆 归 纳 步 。 若 给 定 置换 0 和 0, 的 不 同 选择 ,推导 出 至 少 两 种 
可 能 产生 的 不 同 输出 。 如 果 用 子 句 Father ( Tom，Bob ) 替 换 了 Father ( Shannon, 
Tom ) ,推导 出 此 逆 归 纳 步 的 一 个 结果 。 

10.8 考虑 本 章 中 归纳 问题 的 定义 : . 

(Vxi, f(xi))E DI BARA xi) f(xi) 
和 前 面 第 2 章 对 归纳 偏 冒 的 定义 见 式 (2.1) 之 间 的 联系 。 其 中 归纳 偏 置 Bw 定义 为 表达 式 ; 
CV xE X)( Bras A DA x;) F L(x; D) 

其 中 ,L(x;, 吕 ) 是 学 习 器 在 从 训练 数据 D 上 学 习 后 赋予 新 实例 x; 的 分 类 ,而 三 为 整个 
实例 空间 。 注 意 ,第 一 个 表达 式 是 为 了 描述 我 们 希望 学 习 器 输出 的 假设 ,而 第 二 个 表达 
式 是 为 了 描述 学 习 器 从 训练 数据 中 泛 化 的 策略 。 设 计 一 个 学 习 器 ,其 归纳 偏 置 Bias F 
于 所 提供 的 背景 知识 B。 
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第 11 章 分 析 学 习 


神经 网 络 和 决策 树 这 样 的 学 习 方 法 需要 一 定数 目的 训练 样 例 才 能 达到 一 定 级 别 的 泛 化 精 
度 。 前 面 章节 讨论 的 理论 界限 和 实验 结果 反映 出 了 这 一 事实 。 分 析 学 习 使 用 先 验 知识 和 演绎 
推理 来 扩大 训练 样 例 提 供 的 信息 ,因此 它 不 受 同 样 的 界限 制约 。 本 章 考虑 了 一 种 称 为 基于 解 
释 的 学 习 (EBL) 的 分 析 学 习 方 法 。 在 基于 解释 的 学 习 中 , 先 验 知识 用 于 分 析 ( 或 者 解释 ) 观 察 
到 的 学 习 样 例 是 怎样 满足 目标 概念 的 。 然 后 这 个 解释 被 用 于 区 分 训练 样 例 中 哪些 是 相关 的 特 
征 ,哪些 是 不 相关 的 。 这 样 , 样 例 就 可 基于 逻辑 推理 进行 泛 化 ,而 不 是 基于 统计 推理 。 基 于 解 
释 的 学 习 已 被 成 功 地 用 于 在 各 种 规划 和 调度 任务 中 学 习 搜 索 控制 规则 。 本 章 考 虑 学 习 器 的 先 
验 知识 正确 并 且 完 整 时 的 基于 解释 的 学 习 。 下 一 章 考 虑 先 验 知识 只 是 近似 正确 时 ,将 归纳 学 
习 和 分 析 学 习 结合 起 来 。 


11.1 简介 


前 面 章节 已 考虑 了 各 种 归纳 法 , 即 通 过 确定 能 够 经 验 地 区 分 正 例 和 反例 的 特征 ,从 观察 到 
的 训练 样 例 中 泛 化 。 决 策 树 学 习 、 神 经 网 络 学 习 .归纳 逻辑 编程 以 及 遗传 算法 是 以 这 种 方式 操 
作 的 归纳 学 习 方法 。 这 些 归纳 学 习 器 在 实践 中 的 一 个 关键 限制 是 ,它们 在 可 用 数据 不 足 时 性 
能 较 差 。 实 际 上 ,如 第 7 章 所 讨论 的 ,理论 分 析 显 示 , 从 给 定数 目的 训练 样 例 中 学 习 时 精度 存 
在 基本 的 上 下 界 。 

是 否 能 开发 出 这 样 的 学 习 方 法 ,它们 训练 精度 上 的 基本 限制 不 受 可 用 训练 数据 的 数量 所 
制约 ? 答案 是 肯定 的 ,只 要 我 们 能 重新 考虑 一 下 学 习 问 题 的 形成 。 一 种 办 法 是 使 学 习 算法 能 
接受 显 式 的 先 验 知识 ,与 训练 数据 一 同 作为 输入 。 基 于 解释 的 学 习 是 这 样 的 一 种 方法 。 它 使 
用 先 验 知识 来 分 析 或 解释 每 个 训练 样 例 ,以 推理 出 样 例 的 哪些 特征 与 目标 函数 相关 ,哪些 不 相 
关 。 这 些 解释 能 使 学 习 器 比 单独 依靠 数据 进行 泛 化 有 更 高 的 精度 。 如 前 一 章 所 示 , 归纳 逻辑 
系统 (如 ,CIcoL) 使 用 先 验 背景 知识 来 指导 学 习 。 然 而 它们 使 用 背景 知识 推理 出 的 特征 扩大 了 
输入 实例 的 描述 ,因此 增加 了 待 搜索 假设 空间 的 复杂 度 。 相 反 , 基 于 解释 的 学 习 使 用 先 验 知识 
来 减 小 待 搜索 假设 空间 的 复杂 度 , 减 小 了 样本 复杂 度 并 提高 了 学 习 器 的 泛 化 精度 。 

为 理解 基于 解释 的 学 习 的 直观 意义 ,考虑 下 国际 象棋 的 学 习 任务 。 确 切 地 讲 , 假 定 我 们 希 
望 程序 学 习 识 别 棋局 位 置 的 重要 类 别 , 比 如 目标 概念 “ 黑 棋 将 在 两 步 内 失去 王后 的 棋盘 状态 ”。 
图 11-1 显示 了 此 目标 概念 的 一 个 正 例 。 当 然 ,归纳 逻辑 方法 也 能 用 于 学 习 此 目标 概念 。 然 
而 ,由 于 棋盘 相当 复杂 (有 32 个 子 , 可 以 处 在 64 个 方 格 中 ) ,而 且 此 概念 所 描述 的 特定 模式 相 
当 微 妙 (包含 了 棋盘 上 不 同 子 的 相对 位 置 ) ,我 们 需要 提供 成 千 上 万 的 类 似 于 图 11-1 这 样 的 训 
练 样 例 ,才能 期 望 归纳 学 习 到 的 假设 被 正确 地 泛 化 。 

学 习 下 棋 任务 的 有 趣 之 处 在 于 ,人 类 只 要 少数 的 训练 样 例 就 可 学 习 到 这 样 的 目标 概念 。 
实际 上 ,多 数 人 在 看 了 图 11-1 这 样 一 个 样 例 之 后 就 可 提出 一 个 目标 概念 的 一 般 假设 ,如 “ 黑 后 
和 黑 王 同时 被 攻击 的 情 闹 ”, 而 不 会 得 到 诸如 这 样 的 假设 (但 也 同样 是 一 致 假设 ):“ 四 个 白 兵 还 
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注意 白马 同时 攻击 黑 王 和 黑 后 。 黑 棋 必 须 移动 其 王 ,从 而 白 棋 能 吃 掉 黑 后 


11-1 目标 概念 “ 黑 棋 在 两 步 内 失去 王后 的 棋盘 状态 "的 一 个 正 例 


答案 在 于 ,人 类 非常 依赖 合法 移动 棋子 的 先 验 知识 来 解释 或 分 析 训练 样 例 。 如 果 问 为 什么 
图 11-1 的 训练 样 例 是 “ 黑 棋 在 两 步 内 失去 王后 "的 正 例 ,多 数 人 会 给 出 类 似 于 下 面 的 解释 :“ 因 为 
白马 同时 攻击 黑 王 和 黑 后 ,黑子 必须 摆脱 被 将 军 的 境遇 ,从 而 让 白 子 吃 掉 皇 后 。 该 解释 的 重要 性 
在 于 它 提供 了 所 需 的 信息 ,以 从 训练 样 例 的 细节 中 合理 泛 化 到 正确 的 一 般 假 设 。 此 解释 中 提 到 
的 样 例 特 征 (如 ,白马 、 黑 王 、 黑 后 的 位 置 ) 是 与 目标 概念 相关 的 ,并 且 应 该 被 包含 在 一 般 假设 中 。 
相反 ,解释 由 没有 提 到 的 样 例 特 征 ( 如 , 白 棋 的 兵 的 状态 ) 可 被 认为 是 不 相关 的 细节 。 

在 此 FRB ,学 习 器 为 了 建立 假设 , 它 需要 的 先 验 知识 究竟 是 什么 昵 ? 很 简单 ,是 下 
棋 的 合法 规则 : 即 马 以 及 其 他 子 的 合法 移动 对弈 者 必须 交替 移 子 以 及 要 赢 棋 必 须 提 住 对 方 的 
王 。 注 意 , 只 给 定 这 样 的 先 验 知识 ,在 原则 上 就 有 可 能 对 任意 棋盘 状态 计算 出 最 优 的 走 法 。 然 
而 ,实践 中 这 样 的 计算 可 能 极为 复杂 ,而且 即使 我 们 人 类 在 掌握 了 此 完整 的 下 棋 知 识 , 仍 不 能 
达到 最 优 的 对 弈 。 因 此 ,在 下 棋 ( 以 及 其 他 搜索 密集 的 问题 , 如 调度 和 规划 ) 这 样 的 人 类 学 习 
中 ,包含 了 一 个 很 长 的 发 现 先 验 知识 的 过 程 , 它 是 由 我 们 在 下 棋 时 遇 到 的 特定 样 例 所 引导 的 。 

本 章 描述 了 能 自动 建立 和 学 习 这 样 的 解释 的 学 习 算法 。 本 章 的 剩余 部 分 将 更 精确 地 定义 
分 析 学 习 问 题 。 下 一 节 给 出 了 一 个 特定 的 基于 解释 的 学 习 算 法 , 称 为 PROLOG-EBG。 后 续 几 
节 考 查 了 这 种 算法 的 一 般 特性 以 及 它 与 前 面 章节 中 讨论 的 归纳 学 习 算 法 之 间 的 联系 。 最 后 一 
节 描 述 了 应 用 基于 解释 的 学 习 以 提高 大 状态 空间 搜索 的 性 能 。 本 章 我 们 考虑 了 一 种 特殊 情 
况 , 即 生成 解释 所 基于 的 先 验 知识 是 完全 正确 的 ,如 在 下 棋 例 子 中 人 类 有 正确 知识 的 情形 。 第 
12 章 将 分 析 更 一 般 的 学 习 情 况 , 即 先 验 知识 只 是 近似 正确 的 情况 。 


归纳 和 分 析 学 习 问 题 


分 析 和 归纳 学 习 问 题 的 重要 区 别 在 于 ,它们 设想 的 学 习 问 题 的 形式 不 同 : 

e 在 归纳 学 习 中 ,学 习 器 被 赋予 一 个 假设 空间 互 , 它 必 须 从 中 选择 一 个 输出 假设 。 还 有 一 
个 训练 样 例 集合 D = ais Fa) o ans SnD SOP f(a) AA x; 的 目标 
值 。 学 习 器 所 希望 的 输出 为 H 中 与 这 些 训练 样 例 一 致 的 假设 h。 

o 在 分 析 学 习 中 ,学 习 器 的 输入 包含 与 归纳 学 习 同 样 的 假设 空间 H 和 训练 样 例 D, AiE 
有 另 一 输入 :一 个 领域 理论 (domain theory)B, 它 由 可 用 于 解释 训练 样 例 的 背景 知识 组 成 。 学 
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习 器 希望 的 输出 为 H 中 的 假设 h, ERIE 有 一 致 ,也 与 领域 理论 B 一 致 。 

为 说 明 这 一 点 ,在 下 棋 的 例子 中 每 个 实例 x; 可 描述 一 特定 棋盘 状态 , f(x;) 的 值 在 x; 是 
黑 棋 在 两 步 内 失去 王后 的 棋盘 状态 时 为 真 ,否则 为 假 。 我 们 可 如 第 10 章 那 样 定义 假设 空间 
H H Horn 子 句 集 ( 即 ,ithen 规则 ) ,其 中 规则 所 使 用 的 谓词 表示 棋盘 上 特定 棋子 的 位 置 或 相 
对 位 置 。 领 域 理 论 下 可 由 形式 化 的 下 棋 规 则 组 成 ,描述 了 合法 的 走 棋 、 对 弈 者 轮流 行 棋 以 及 
捉 住 对 方 王 时 获胜 等 。 

注意 ,在 分 析 学 习 中 ,学 习 器 必须 输出 一 假设 , 婚 与 训练 数据 一 致 又 与 领域 理论 一 致 。 当 
B 不 涵 蕴 的 否定 时 ( 即 BK Oh), RIIE h 与 领域 理论 B 一 致 (consistent) 。 这 种 附加 的 一 
致 性 约束 减少 了 当 数 据 不 能 单独 在 H 中 决定 时 学 习 器 面临 的 歧义 性 。 如 果 领 域 理论 正确 ， 
其 最 后 效果 就 是 提高 了 输出 假设 的 精度 。 

现 详 细 介 绍 一 下 本 章 后 面 一 直 用 到 的 分 析 学 习 问 题 的 另 一 个 例子 。 考 虑 一 个 实例 空间 
X, 其 中 每 个 实例 都 是 一 对 物理 对 象 。 每 对 物理 对 象 由 谓词 Color, Volume, Owner, Materi- 
al, Type 和 Density 描述 ,而 两 个 对 象 之 间 的 关系 用 谓词 On 描述 。 在 此 假设 空间 中 ,学 习 任 
务 是 学 习 目 标 概 念 “ 两 个 物理 对 象 ,一 个 可 被 安全 地 树 放 在 另 一 个 上 ” ,表示 为 谓词 Safe- 
ToStack(x,y)。 学 习 此 目标 概念 有 实用 的 价值 ,例如 ,一 个 机 器 人 系统 要 在 一 有 限 空间 中 存 
放 不 同 的 物理 对 象 。 此 分 析 学 习 的 完整 定义 在 表 11-1 中 给 出 。 

表 11-1 分 析 学 习 问 题 : SafeToStack( x, y) 


已 知 : 
@ 实例 空间 X :每 个 实例 描述 了 一 对 对 象 ,描述 为 谓词 Type. Color, Volume, Owner, Material, Density 和 On 
© 假设 空间 1:8NERE—A Hom 子 句 规则 。 每 个 Hon 子 句 的 头 部 为 一 个 包含 目标 谓词 SafeToStack 的 文 
字 。 每 个 Hon 子 句 为 文字 的 合 取 , 这些 文字 基于 描述 实例 的 谓词 以 及 谓词 LessThan, Equal, GreaterThan 和 
函数 plus, minus 和 times。 例 如 下 面 的 Horn 子 句 是 假设 空间 中 的 一 员 : 
SafeToStack( x, y)*— Volume( x, vx)M Volume(y, vy) A LessThan(vx, vy) 
@ 目标 概念 ; SafeToStack(x,y) 
@ 训练 样 例 : 下 面 显 示 了 一 个 典型 的 正 例 SafeToStack( 0O511，O812): 


On( Obj1, Obj2) Owner( Obj1, Fred) 
Type( Obj1, Box) Owner( 0bj2, Louise) 
Type( 0bj2, Endtable) Density( Obj1, 0.3) 
Color( Obji, Red) Material ( 0bj1, Cardboard) 
Color ( 0bj2, Blue) Material ( Obj2, Wood) 
Volume( Obj1, 2) 

@ 领域 理论 B: 


SafeToStack(x, y)+- ~7 Fragile( y) 

SafeToStack(x, y) < Lighter (x, y) 

Lighter( x, y) + Weight(x, wx) A Weight(y, wy) A LessThan( wx. wy) 
Weight(x, w) < Volume(x, v) A Density(x, d) A Equal(w, times(v, d)) 
Weight(x, 5) —Type( x, Endtable) 

Fragile( x) +- Material(x, Glass) 


求解 : 
@ 有 中 一 个 与 训练 样 例 和 领域 理论 一 致 的 假设 
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如 表 11-1 所 示 , 我 们 选 定 的 假设 空间 H 中 每 个 假设 为 一 个 一 阶 if-then 规则 集 ,或 称 
Horn 子 句 (本 章 中 遵循 表 10-3 中 列 出 的 一 阶 Hon 子 句 的 记号 和 术语 )。 例 如 , 表 中 显示 的 
Horn 子 句 假设 的 样 例 断言 : 当 x 的 体积 Volume 小 于 ( LessThan ) y 的 体积 Volume 时 (在 
Horn 子 句 中 变量 vx 和 wy 分 别 表示 x Aly 的 体积 值 ) , 则 对 象 x TEHE ( Safe ToStack ) 在 
对 象 y 上 。 注 意 ,Horn 子 句 假 设 可 包含 用 于 描述 实例 的 任意 谓词 以 及 几 个 附加 的 谓词 和 函 
数 。 表 中 还 显示 了 一 个 典型 的 正 例 SafeToStack ( obj1, 0bj2) o 

为 明确 地 表达 此 分 析 学 习 问 题 , 还 必须 提供 领域 理论 ,充分 解释 为 什么 观察 到 的 正 例 满 足 目 
标 概 念 。 在 前 面 的 下 棋 例 子 里 ,领域 理论 为 棋子 走 法 的 知识 ,从 中 我 们 建立 出 为 什么 黑 棋 会 丢 后 
的 解释 。 在 当前 例子 中 ,领域 理论 必须 很 容易 解释 为 什么 一 个 对 象 可 放 在 另 一 个 之 上 。 表 中 显 
示 的 领域 理论 包括 断言 :“ 如 果 y 不 是 易 碎 的 ( Fragile) ,可 将 x KEWER y 上 ”以 及 “ 当 的 
材料 ( Material) 是 玻璃 ( Glass THR x 是 易 碎 的 ( Fragile)。” 如 学 习 到 的 假设 一 样 ,领域 理论 由 
一 组 Hom 子 句 描述 , 它 使 系统 原则 上 可 以 加 入 任何 学 习 到 的 假设 至 后 续 的 领域 理论 中 。 注 意 ， 
领域 理论 包括 如 Lighter 和 Fragile 这 样 的 附加 谓词 ,它们 不 在 训练 样 例 的 描述 中 ,但 是 由 更 原子 
的 实例 属性 如 Material. Density W Volume 使 用 领域 理论 中 其 他 规则 推理 得 出 。 最 后 ,注意 表 中 
显示 的 领域 理论 充分 证 明 这 里 显示 的 正 例 满足 目标 概念 Safe ToStack o 


11.2 用 完美 的 领域 理论 学 习 :Phouoc-EBG 


如 前 所 述 , 本 章 主要 考虑 的 基于 解释 的 学 习 是 在 领域 理论 很 完美 的 情况 下 的 , 即 领 域 理 论 是 
正确 的 并 且 完 整 的 。 当 领域 理论 中 每 个 断言 都 是 客观 的 真实 描述 时 ,该 领域 理论 被 称 为 正确 的 。 
当 领 域 理论 覆盖 了 实例 空间 中 所 有 正 例 时 ,该 领域 理论 被 称 为 完整 的 (对 应 给 定 的 目标 概念 和 实 
例 空间 )。 换 言 之 ,其 完整 性 说 明 ,每 个 满足 目标 概念 的 实例 都 可 由 领域 理论 证 明 其 满足 性 。 注 
意 ,前 面 对 完整 性 的 定义 不 要 求 领域 理论 可 证 明 反 例 不 满足 目标 概念 。 然 而 ,如 果 遵 循 通常 
PRolLoc 惯例 ,不 能 证 明 的 断言 可 认定 是 假 。 因 此 该 完整 性 定义 可 包含 全 部 正 例 和 反例 。 

读者 在 此 可 能 会 问 ,对 于 学 习 器 假定 有 这 样 的 完美 领域 理论 是 否 合理 ? 既然 学 习 器 有 了 
一 个 完美 的 领域 理论 ,还 有 何必 要 再 去 学 习 ? 对 于 此 问题 可 按 以 下 两 点 回答 : 

o 首先 , 某 些 情形 下 是 有 可 能 提供 完美 领域 理论 的 。 前 面 的 下 棋 的 问题 就 是 这 样 的 一 个 

例子 。 其 中 棋子 的 合法 走 子 形成 了 一 个 完美 的 领域 理论 , (原则 上 ) 可 用 它 来 推理 最 优 
的 下 棋 策 略 。 进 一 步 讲 ,虽然 很 容易 写 出 构成 领域 理论 的 棋子 合法 步子 ,要 写 出 最 优 下 
棋 策略 仍然 很 难 。 在 这 种 情况 下 ,我 们 更 希望 将 这 样 的 领域 理论 提供 给 学 习 器 ,并 希望 
学 习 器 形成 目标 概念 的 有 帮助 的 描述 (如 :;“ 可 能 丢 后 的 棋局 状态 ")。 方 法 是 通过 对 特 
殊 训 练 样 例 进行 考查 和 泛 化 。 第 11.4 节 描 述 了 使 用 完美 领域 理论 的 基于 解释 的 学 习 
成 功 地 应 用 到 几 个 搜索 密集 的 计划 和 优化 问题 中 ,并 自动 改进 性 能 。 

e 第 二 ,在 许多 情况 下 不 能 够 假定 有 完美 的 领域 理论 。 比 如 很 难为 前 面 这 个 相对 简单 的 
SafeToStack 问题 给 出 完整 而 正确 的 领域 理论 。 更 实际 的 方法 是 假定 必须 使 用 基于 不 
完美 领域 理论 的 近似 合理 的 解释 ,而 不 是 基于 完美 知识 做 出 确切 证 明 。 无 论 怎样 ,我们 
可 以 通过 考虑 理想 情况 下 的 完美 领域 理论 ,开始 了 解 在 学 习 中 使 用 解释 的 目的 。 第 12 
章 将 讨论 从 不 完美 领域 理论 中 学 习 。 

本 节 展 示 了 一 个 称 为 PRoLoc-EBG 的 算法 〈KedarCabelli & McCarty 1987) ,用 它 作为 几 

种 基于 解释 的 学 习 的 代表 。PRoLoc-EBG 是 一 序列 覆盖 算法 ( 见 第 10 章 )。 换 言 之 , 它 的 过 程 
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是 学 习 单个 Horn 子 句 规则 , 移 去 此 规则 覆盖 的 正 例 ,然后 在 剩余 正 例 上 重复 这 一 过 程 ,直到 
没有 未 被 覆盖 的 正 例 为 止 。 若 给 定 一 完整 并 正确 的 领域 理论 , PRoLoc-EBG 保证 输出 一 个 假 
设 (规则 集 ) , 它 本 身 是 正确 的 并 能 覆盖 观察 到 的 正 例 。 对 任意 正 例 集合 ,由 PRorLoc-EBG 输出 
的 假设 包含 一 组 对 应 于 领域 理论 的 目标 概念 的 逻辑 充分 条 件 。PhoLoc-EBG 是 Mitchell et al. 
(1986) 介 绍 的 EBG 算法 的 改进 ,并 且 类 似 于 DeJong & Mooney (1986) WRH EGGS 算法 。 
PRoLoc-EBG 算法 在 表 11-2 中 列 出 。 


表 11-2 基于 解释 的 学 习 算 法 PRoLoG-EBG 


PROLOG-EBG( TargetConcept, TrainingExamples, DomainTheory) 
© LearnedRules< |} 
@ Pos— TrainingExamples 中 的 正 例 
@ 对 Pos 中 没有 被 LearnedRules 覆盖 的 每 个 PositiveExample ,做 以 下 操作 : 
1. 解释 
© Explanation~-Vi DomainTheory 表示 的 解释 (证 明 ) ,说明 PositiveExample 满足 TargetConcept 
2. 分 析 
@ SuffcientConditions<32 RK Explanation 能 够 充分 满足 TargetConcept 的 PositiveExample 的 最 一 般 特 
征集 合 
3. 改进 
@ LearnedRules<- LearnedRules + New HornClause, 其 中 NewHornClause 形式 为 : 
TargetConcept< SufficientConditions 
@ 返回 LearnedRules 
注 : 对 每 个 还 没 被 学 习 到 的 Horn 子 句 集 ( LearnedRules) 禾 盖 的 正 例 , 建 立 一 个 新 Horn 子 句 。 该 新 的 Horn 于 名 的 创建 
是 通过 (1) 按 领域 理论 解释 训练 样 例 。(2) 分 析 此 解释 以 确定 样 例 的 相关 特征 。(3) 建 立 一 新 的 Hom 子 句 , 它 在 该 
组 特征 满足 时 得 到 目标 概念 。 


运行 举例 

为 说 明 该 算法 ,再 次 考虑 表 11-1 给 出 的 训练 样 例 和 领域 理论 。 表 11-2 列 出 的 PRoLoc- 
EBG 算法 是 一 序列 覆盖 算法 , 它 增 量 地 考虑 训练 数据 。 对 每 个 新 正 例 , 若 它 还 没 被 一 个 学 到 
的 Horn 子 句 覆盖 ,算法 通过 下 列 步骤 生成 一 新 的 Horn 子 句 :(1) 解 释 新 的 正 例 ; (2) 分 析 该 解 
释 以 确定 一 合适 的 泛 化 ;(3) 通 过 加 入 一 新 的 Horn 子 句 以 覆盖 该 正 例 以 及 其 他 相似 实例 改进 
当前 假设 。 下 面 我 们 依次 考查 这 三 个 步骤 。 

1. 解释 训练 样 例 

处 理 每 个 新 样 例 的 第 一 步 是 按照 领域 理论 建立 解释 ,说 明 该 正 例如 何 满足 目标 概念 。 当 
领域 理论 正确 且 完 整 时 ,此 解释 构成 了 训练 样 例 满足 目标 概念 的 证 明 (proof)。 如 果 先 验 知识 
不 完美 ,解释 中 的 记号 必须 被 扩展 以 允许 近似 的 参数 , 而 不 是 完美 的 证 明 。 

对 当前 样 例 的 解释 见 图 11-2。 注 意 , 其 中 底部 的 图 形 代表 了 表 11-1 中 的 正 例 Safe- 
ToStack( 0bj1，06bj2)。 图 中 上 部 为 对 此 样 例 构 造 的 解释 。 注 意 ,此 解释 (或 称 证 明 ) 说 明 因为 
Obj1 比 Obj2 更 轻 ( Lighter), 所 以 Obj1 可 以 安全 堆 匡 ( SafeToStack) 在 Obj2 上 。 更 进一步 ， 
知道 Obj] 更 轻 是 因为 它 的 重量 ( Weight) 可 以 由 其 密度 ( Density) 和 体积 ( Volume ) 推 得 ,而 且 
Obj2 的 重量 ( Weighi) 可 从 茶几 ( Endiable) 的 默认 的 重量 ( Weight ) 值 得 出 。 此 解释 基于 的 特 
Horn 子 句 在 表 11-1 的 领域 理论 中 显示 出 。 注 意 ,此 解释 只 提 到 了 0/1 和 08j2 的 属性 中 
的 一 小 部 分 ( 即 对 应 于 图 中 阴影 区 域 的 属性 )。 
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虽然 对 于 这 里 显示 的 训练 样 例 和 领域 理论 只 有 一 种 解释 ,一 般 情 况 下 可 能 有 多 种 解释 。 
因此 ,这 些 解释 中 任意 的 或 所 有 的 都 可 被 使 用 。 每 个 解释 可 对 训练 样 例 形 成 不 同 的 泛 化 ,但 所 
有 解释 都 将 被 给 定 的 领域 理论 论证 。 在 PRoLoc-EBG 中 ,解释 的 生成 使 用 了 如 PRoLoc 中 的 反 
向 链 式 搜索 。PRoLoc-EBG 如 PRoLoc 一 样 ,在 它 找 到 第 一 个 有 效 证 明 时 终止 。 


解释 : 
SafeToStack(Obj1,Obj2) 


Lighter( Obj ,Obj2) 





Weight(Obj! , 0.6) Weight(Obj2, 5) 


Volume( Obj1,2) Density(Obj1,0.3) Equal(0.6, 2*0.3) LessThan(0.6, 5) Type(Obj2,Endtable) 


训练 样 例 : 





下 部 的 网 络 以 图 形 绘 出 了 表 11-1 中 的 训练 样 例 SafeToStack( 0bj1, 0bj2)。 图 上 面部 分 绘 出 了 此 样 例 怎 样 满 
足 目 标 概念 SafeToStack 的 解释 。 训 练 样 例 中 的 阴影 部 分 表示 在 解释 中 用 到 的 样 例 属性 。 其 他 不 相关 的 样 例 
属性 将 从 形成 的 泛 化 假设 中 去 掉 


图 11-2 训练 样 例 的 解释 


2. 分 析 解 释 

在 泛 化 训练 样 例 时 面临 的 关键 问题 是 “在 当前 样 例 中 许多 正好 为 真 的 特征 中 , 哪 一 个 是 在 
一 般 情况 下 与 目标 概念 相关 的 ?”。 由 学 习 器 构造 的 解释 对 此 问题 做 出 了 直接 的 回答 :正好 是 
那些 在 解释 中 提 及 的 特征 。 例 如 ,图 11-2 的 解释 包含 了 0&j1 的 Density, BRACH Owner 
属性 。 因 此 , SafeToStack( x ,7y) 的 假设 应 包含 Density( x ,0.3) ,而 不 包含 Owner(x, Fred). 
通过 收集 图 11-2 中 解释 的 叶 结 点 中 提 及 的 特征 ,并 将 0&j1 和 0112 替换 为 x 和 y ,可 形成 一 
个 由 领域 理论 论证 的 一 般 规则 。 l 

SafeToStack( x ,y)< Volume( x ,2) A Density( x ,0.3) A Type(y, Endtable ) 

上 面 的 规则 体 包 含 了 证 明 树 中 每 个 叶 结 点 , 除了“ Equal (0. 6, times (2,0. 3))” 7 
“LessThan(0.6, 5)” 之 外 。 去 掉 这 两 个 是 因为 根据 定义 它们 总 是 被 满足 的 ,而 与 x My 无 关 。 

连同 这 个 学 到 的 规则 ,程序 还 可 以 提供 其 论证 :对 训练 样 例 的 解释 形成 了 对 此 规则 正确 性 
的 证 明 。 虽 然 此 解释 是 为 了 覆盖 观察 到 的 训练 样 例 , 同 样 的 解释 将 适用 于 任何 与 此 一 般 规 则 
匹配 的 实例 。 

上 面 的 规则 构成 了 此 训练 样 例 的 一 个 很 有 意义 的 泛 化 ,因为 它 去 除了 样 例 的 许多 与 目标 
概念 无 关 的 属性 (如 ,两 个 对 象 的 Color ) ,然而 通过 更 仔细 地 分 析 解 释 , 可 以 得 到 更 一 般 的 规 
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RW. PRoLoc-EBG 可 计算 能 由 解释 论证 的 最 一 般 的 规则 ,方法 是 通过 计算 解释 的 最 弱 前 像 
(weakest preimage) ,定义 如 下 : 


定义 :结论 C 对 应 于 证 明 P 的 最 弱 前 像 (weakest preimage) Aik MHP aA A, 
使 得 A 按照 P MA C。 


例如 ,目标 概念 SafeToSiack(x,y) 对 应 表 11-1 中 解释 的 最 弱 前 像 由 下 面 规则 体 给 出 。 
它 是 可 由 图 11-2 的 解释 论证 的 最 一 般 规则 : 
SafeToStack(x, y)*-Volume(x, vx) A Density(x ,dx) A 
Equal( wx, times(vx, dx)) A LessThan( wx,5) A 
Type(y, Endtable) 

注意 , 这 个 更 一 般 的 规则 不 要 求 给 出 Volume 和 Density 的 特定 值 , 但 前 一 个 规则 需要 。 
它 只 是 对 这 些 属性 的 值 进行 更 一 般 的 约束 。 

PRoLoc-EBG 计算 目标 概念 的 关于 解释 的 最 弱 前 像 的 过 程 ,使 用 的 是 回归 (regression) 过 
程 (Waldinger 1977)。 回 归 过 程 针 对 的 是 由 任意 Hon 子 句 集 表示 的 领域 理论 。 它 的 工作 方式 
是 在 解释 中 反复 地 后 退 ,首先 对 应 于 解释 中 最 后 证 明 步 计算 目标 概念 的 最 弱 前 像 ,然后 对 应 于 
其 前 一 步 计算 结果 表达 式 的 最 弱 前 像 ,依次 类 推 。 该 过 程 在 遍历 过 解释 中 所 有 步骤 后 终止 ,得 
到 对 应 于 解释 的 叶 节 点 上 的 文字 的 目标 概念 的 最 弱 前 件 。 

此 回归 过 程 的 运行 步骤 见 图 11-3 所 示 。 在 此 图 中 ,图 11-2 中 出 现 的 解释 以 标准 字体 ( 非 斜体 ) 
重 画 出 。 而 每 一 步 ,由 回归 过 程 创建 的 边缘 回归 表达 式 用 带 下 划 线 的 斜体 字 显示 。 此 过 程 开始 于 
树 的 根部 ,边缘 被 初始 化 为 一 般 目标 概念 Safe ToStack (*,y)。 第 一 步 ,计算 边缘 表达 式 对 应 于 解释 
中 最 后 (最 上 面 的 ) 推 理 规则 的 最 弱 前 像 。 在 此 情形 下 规则 为 SafeToStack (x, y) <Lighter(x, y), 
因此 得 到 的 最 弱 前 像 为 Ciejier(x,y)。 然 后 ,通过 此 解释 中 下 一 个 Hom 子 句 ,该 过 程 继续 对 此 新 
边缘 | Lighter( x，y)1 进 行 回归 ,得 到 回归 表达 式 | Weight(x, wx), LessThan( wx, wy), Weight(y, 
wy)|。 此 式 意 味 着 ,对 于 任意 的 x 和 y, 若 x 的 重量 wx KF y 的 重量 wy ,解释 成 立 。 此 边缘 的 
回归 以 此 一 步 步 的 方式 退回 到 解释 的 叶 结 点 ,最 终 得 到 树 的 叶 结 点 上 的 一 组 泛 化 文字 。 最 终 的 泛 
化 文字 集合 ,如 图 11-3 底部 所 示 , 形 成 了 最 终 规则 的 规则 体 。 

“回归 过 程 的 核心 是 ,每 一 步 通过 领域 理论 的 一 条 Horn 子 句 回归 当前 边缘 表达 式 的 算法 。 
此 算法 在 表 11-3 中 描述 并 举例 说 明 。 表 中 的 例子 对 应 于 图 11-3 中 最 底部 的 回归 步 。 如 表 中 
显示 的 ,REcREss 算法 的 操作 过 程 是 ,寻找 一 个 置换 使 Hom 子 句 的 头 与 边缘 中 的 相应 文字 合 
一 ,用 规则 体 蔡 换 边缘 中 的 表达 式 , 再 应 用 一 个 合 一 置换 到 整个 边缘 。 

由 PRoLoc-EBG 输出 的 最 终 Horn 子 句 形 式 如 下 : 子 句 体 被 定义 为 上 述 过 程 计算 出 的 最 弱 
前 件 。 子 句 头 为 目标 概念 本 身 ,以 及 应 用 到 它 上 的 每 一 回归 步 中 的 每 个 置换 (如 表 11-3 中 的 
置换 0, ) 。 应 用 此 置换 是 为 了 在 创建 出 的 子 句 头 和 子 句 体 中 保持 一 致 变量 名 ,以 及 当 此 解释 
只 应 用 于 目标 概念 的 特殊 情况 时 特 化 子 句 头 。 如 前 指出 的 ,对 于 当前 的 例子 ,最 终 规则 为 : 

SafeToStack( x, y)<-Volume(x, vx) A Density(x,dx) A 
Equal( wx, times(vx, dx)) A LessThan( wx ,5) A 
Type(y, Endtable) 
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SafeToStack(Obj1,Obj2) 


Weight(Obj1, 0.6) LessThan(0.6,5) Weight(Obj2,5) 
Weight(x,wx) LessThan(wx,wy) _ Weight(y,wy) 


Volume(Obj1,2) Density(Obj1,0.3) Equal(0.6,2*0.3) 
Volume(x.vx) Densitvicdx) Equal(wx,vx*dx) LessThan(wxwy) Weight(y,wy) 


目标 概念 从 解释 的 根部 (结论 ) 开 始 回归 ,下 降 到 叶 结 点 。 每 一 步 ( 由 虚线 表示 ), 当前 文字 集合 边缘 ( 带 下 划 线 
的 斜体 ) 在 解释 的 一 个 规则 上 被 反 向 回归 。 当 此 过 程 完成 时 ,结果 文字 合 取 构 成 了 对 应 于 解释 的 目标 概念 的 最 
弱 前 像 。 此 最 弱 前 像 在 图 的 底部 以 斜体 的 文字 显示 


图 11-3 计算 SafeToStack( 0bj1, 0bj2) 关 于 解释 的 最 弱 前 像 
#11-3 通过 一 个 Hom 子 句 回归 一 组 文字 的 算法 


Recress( Frontier, Rule, Literal, Oyi) 
Frontier :通过 规则 被 回归 的 文字 集合 
Rule: Horn FA) 
Literal :在 Frontier 中 的 文字 , 它 由 解释 中 的 Rule 推 得 
On: tË Rule 的 头 与 解释 中 的 相应 文字 合 一 的 置换 
返回 构成 Frontier 的 关于 Rule 的 最 弱 前 像 的 文字 集合 
@ head Rule 的 头 
@ body- Rule 的 体 
© Oy*-head 5 Literal 的 最 一 般 合 一 ,使 得 存在 置换 0 满足 : 
Oi(Ou( head)) = Orl head) 
@ 返回 gu( Frontier-head + body) 


示例 (图 11-3 中 最 下 面 的 回归 步 ): 

RECRESS( Frontier, Rule, Literal, 0y), JEP 

Frontier = | Volume(x, vx), Density( x, dx), Equal( wx, times(vx, dx)), LessThan( wx, wy), Weight 
(y, wy)! 

Rule = Weight(z, 5) <-Type(z, Endtable) 

Literal = Weight(y, wy) 

On = |z/0bj2} 
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( 续 ) 


@ head Weight(z, 5) 

@ body*- Type(z, Endtable) 

@ Oy lz/y, wy/51, 其 中 Oy = | y/0bj2} 

OREI | Volume(x, vx), Density(x, dx), Equal( wx,times(vx, dx)), LessThan( wx, 5), Type 
(y, Endtable)| . 

注 : 由 边缘 (Frontier) 给 出 的 文字 集合 通过 Rule 被 回归 。 Literal 为 此 解释 中 由 Rule 推理 的 Frontier RA, BR 0 给 
出 了 从 Rule 的 头 到 解释 中 对 应 文字 的 变量 约束 。 此 算法 首先 计算 一 个 能 使 Rule HH Literal 合 一 的 置换 8 ,其 
方法 是 使 其 与 置换 Di 一 致 。 然 后 此 置换 OMAN TR T Rule 的 Frontier 的 前 像 。 算 法 中 符号 “+ ”和 “-” 表 
示 集 合并 和 集合 差 。 记 号 iz/y| 表 示 用 y Rz 表 中 还 给 出 了 分 步 运行 的 例子 。 


3. 改进 当前 假设 

每 一 阶段 的 当前 假设 由 当时 学 习 到 的 Horn 子 句 集 组 成 。 每 一 阶段 ,序列 覆盖 算法 选取 
一 个 还 未 被 当前 Horn 子 句 覆盖 的 新 正 例 ,解释 该 正 例 并 按照 上 面 的 过 程 形 成 新 规则 。 注 意 ， 
我 们 已 定义 的 算法 中 只 有 正 例 被 覆盖 , 而 且 学 习 到 的 Hon 子 句 集 只 预测 正 例 。 对 于 一 个 新 
实例 ,如果 当前 规则 预测 其 正 例 失败 , 则 它 被 分 类 为 反例 。 这 是 与 PRoLoc 这 样 的 Horn FAJ 
推理 系统 中 标准 的 失败 否定 方法 相 吻合 的 。 


11.3 对 基于 解释 的 学 习 的 说 明 


如 我 们 在 上 例 中 看 到 的 PRoLoc-EBG 对 单个 训练 样 例 进 行 详 细 分 析 ,确定 如 何 最 好 地 从 
特殊 样 例 泛 化 到 一 般 Horn 子 名 假设 。 此 算法 的 要 点 如 下 : 

© PRoLoc-EBG 不 像 归 纳 的 方法 , 它 通过 运用 先 验 知识 分 析 单 个 样 例 以 产生 合理 的 (justi- 
fied) 一 般 假设 。 

o 对 样 例如 何 满足 目标 概念 的 解释 ,确定 了 样 例 的 哪些 属性 是 相关 的 : 即 在 解释 中 提 及 的 
属性 。 

© 对 解释 的 进一步 分 析 , 邑 回归 目标 概念 以 确定 其 对 应 解释 的 最 弱 前 像 ,可 推导 出 相关 特 
征 值 的 一 般 约束 。 

© 每 个 学 习 到 的 Horn 子 句 对 应 于 满足 目标 概念 的 一 个 充分 条 件 。 学 习 到 的 Horn FAR 
覆盖 了 学 习 器 遇 到 的 正 例 , 以 及 其 他 与 此 共享 同样 解释 的 实例 。 

o 学 习 到 的 Horn 子 句 的 泛 化 将 依赖 于 领域 理论 的 形式 以 及 训练 样 例 被 考虑 的 序列 。 

© ProLoc-EBG 隐 含 假定 了 领域 理论 是 正确 且 完整 的 ,如 果 和 领域 理论 不 正确 或 不 完整 ,学 
到 的 概念 也 将 不 正确 。 

在 基于 解释 的 学 习 中 有 一 些 相关 的 观点 ,可 有 助 于 理解 其 能 力 和 限制 : 

© EBL 作为 理论 引导 的 样 例 泛 化 (theory-guided generalization of examples) EBL 使 用 给 
定 的 领域 理论 以 从 样 例 中 合理 泛 化 ,区 分 出 相关 和 不 相关 的 样 例 属性 ,因此 可 以 避免 用 
于 纯 归 纳 推理 中 的 样本 复杂 度 界 限 。 这 是 一 个 隐 含 在 上 面 描述 的 PRoroc-BEG 算法 中 
的 观点 。 

© EBL 作为 样 例 引导 的 理论 重建 (example-guided reformulation of theories) PROLOG-EBG 
算法 被 看 作 是 一 种 重建 领域 理论 到 一 种 可 操作 形式 的 方法 。 确 切 地 讲 ,重建 领域 理论 
是 通过 创建 这 样 的 规则 :(a) 能 从 领域 理论 中 演绎 派生 。(b) 在 一 个 推理 步 内 分 类 观察 
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到 的 训练 样 例 。 这 样 ,学 习 到 的 规则 可 被 看 作 将 领域 理论 重建 为 一 组 特殊 情况 下 的 规 
则 , 它 能 在 一 个 推理 步 内 对 目标 概念 的 实例 分 类 。 
o EBL 作为 “仅仅 ” 重 述 学 习 器 已 经 "知道 "的 (“just”restating what the learner already 
“knows”) 在 某 种 程度 上 ,在 SafeToStack 例子 中 的 学 习 器 开始 于 其 目标 概念 的 全 部 
知识 。 也 就 是 说 ,如 果 它 的 初始 领域 理论 充分 解释 了 任何 训练 样 例 , 那 么 它 也 能 充分 预 
测 其 分 类 。 那 么 学 习 的 意义 在 哪儿 呢 ? 一 种 回答 是 ,在 许多 任务 中 ,原则 上 已 知 的 和 实 
践 上 可 有 效 计 算 的 之 闻 的 区 别 很 大 ,因此 这 种 “知识 重建 "为 学 习 的 重要 形式 。 例 如 ,在 
下 棋 的 例子 中 ,对 弈 的 规则 构成 了 一 个 完美 的 领域 理论 ,原则 上 足以 进行 完美 的 对 弈 。 
即使 如 此 ,人 们 仍然 需要 大 量 的 经 验 来 学 习 如 何 很 好 地 下 棋 。 这 正 是 这 样 一 种 情形 ， 
(人 类 的 ) 学 习 器 已 经 知道 了 完美 的 领域 理论 , 而 进一步 学 习 只 是 “简单 地 "将 此 知识 重 
建 为 另 一 种 形式 ,以 用 于 更 有 效 的 指导 适当 的 行为 。 有 同样 属性 的 另 一 个 例子 是 学 习 
牛顿 力学 课程 :基本 的 物理 定律 已 被 简单 地 陈述 ,但 学 生 仍旧 需要 在 学 期 中 花 一 大 部 分 
时 间 学 习 这 一 课程 ,以 拥有 更 可 操作 的 知识 ,然后 就 不 需要 在 最 后 的 考试 中 用 最 基本 的 
定律 来 推导 每 个 问题 的 解 。PRoLoc-EBG 执行 的 就 是 这 种 形式 的 知识 重建 , 它 学 习 到 
的 规则 可 从 可 观察 的 实例 特征 映射 到 关于 目标 概念 的 分 类 ,方法 是 使 其 与 基本 领域 理 
论 一 致 。 使 用 原始 的 领域 理论 可 能 需要 许多 推理 步 和 很 可 观 的 搜索 才能 对 任意 实例 分 
类 ,而 学 习 到 的 规则 可 在 一 个 推理 步 内 分 类 观察 到 的 实例 。 
因此 ,纯粹 的 EBL 致力 于 重建 领域 理论 ,产生 可 单 步 推理 出 样 例 分 类 的 一 般 规则 。 这 种 
知识 重建 的 过 程 有 时 被 称 为 知识 汇编 (knowledge compilation) ,表示 这 种 转换 是 为 了 增加 效 
率 ,而 不 改变 系统 知识 的 正确 性 。 


11.3.1 发 现 新 特征 


PRoLoc-EBG 一 个 有 趣 的 能 力 是 形成 在 训练 样 例 的 描述 中 没有 显 式 出 现 的 新 特征 ,但 这 
些 特征 是 在 描述 训练 样 例 中 的 一 般 规 则 时 必需 的 。 这 种 能 力 在 前 一 节 的 分 步 算法 和 学 到 的 规 
则 中 显示 。 确 切 地 说 ,学 到 的 规则 断言 对 x 的 Volume 和 Density 的 必要 约束 为 其 乘积 小 于 5。 
实际 上 ,训练 样 例 并 不 包含 此 乘积 以 及 它 应 取 的 值 的 描述 。 此 约束 是 由 学 习 器 自动 形成 的 。 

注意 ,此 学 习 到 的 “特征 "类 似 于 由 神经 网 络 的 隐藏 单元 表示 的 特征 类 型 。 也 就 是 说 ,这 个 
特征 是 可 由 已 有 实例 属性 计算 出 的 .大量 潜在 的 特征 之 一 。 和 反 向 传播 算法 一 样 , PRoLoc- 
EBG 在 其 尝试 拟 合 训练 数据 的 过 程 中 ,自动 形成 这 样 的 特征 。 然 而 ,不 像 神经 网 络 中 使 用 统 
计 过 程 从 多 个 训练 样 例 中 推导 出 隐藏 单元 特征 , PRoOLOC-EBG 应 用 了 一 个 分 析 过 程 基 于 单个 
训练 样 例 的 分 析 推 导 新 的 特征 。 上 面 的 例子 中 Poroc-EBG 用 分 析 的 方法 推导 出 特征 
Volume x Density > 5, 它 来 自用 于 解释 单个 训练 样 例 的 领域 理论 的 特定 实例 化 。 例 如 ,“ Vol- 
umn 和 Density 的 乘积 很 重要 ”这 一 概念 是 来 自 定 义 Weight 的 领域 理论 规则 。 该 乘积 必须 小 
于 5 的 概念 来 自 另外 两 条 领域 理论 规则 ,它们 断言 05j1 必须 比 茶 几 ( EndTable ) 更 轻 
( Lighier), 以 及 茶几 ( Endtable ) 的 重量 ( Weighi) 等 于 5。 因 此 , 正 是 这 些 领 域 理论 中 的 最 初 项 
的 特定 合成 和 实例 化 才 导 致 了 此 新 特征 的 定义 。 

自动 学 习 有 用 特征 以 扩大 实例 表示 的 问题 是 机 器 学 习 的 一 个 重要 问题 。 在 基于 解释 的 学 
习 中 分 析 推 导 新 特征 和 在 神经 网 络 的 隐藏 单元 中 归纳 推导 新 特征 提供 了 两 种 不 同 的 途径 。 因 
此 ,它们 依赖 的 信息 来 源 不 同 (一 个 是 在 许多 样 例 上 的 统计 规则 , 另 一 个 是 使 用 领域 理论 的 单 
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个 样 例 分 析 ) ,有 可 能 结合 两 种 来 源 探索 出 新 的 方法 。 
11.3.2 演绎 学 习 


纯粹 的 PRoLoc-EBG 是 一 个 演绎 的 而 不 是 归纳 的 学 习 过 程 。 也 就 是 说 ,通过 计算 解释 的 
最 弱 前 像 , 它 产生 一 个 可 从 领域 理论 B 中 演绎 派生 的 假设 h, 而 且 覆 盖 训 练 数据 D。 更 精确 
HYF, PRoLoc-EBG 输出 一 个 假设 h 满足 下 面 的 约束 : 
(Vexi, f(x) DhA xi) F(x;) (11.1) 
DAB Fh (11.2) 
其 中 训练 数据 D 由 一 组 训练 样 例 组 成 , x; 为 第 i 个 训练 实例 , f(x;) 为 它 的 目标 值 (f 为 
目标 函数 )。 注 意 ,第 一 个 约束 只 是 简单 地 将 机 器 学 习 的 通常 的 需求 形式 化 , 即 假设 h 能 对 训 
练 数据 中 每 个 实例 x; 正确 预测 目标 值 F( *;)2 当然 一 般 情 况 下 有 多 种 假设 满足 这 一 约束 。 第 
二 个 约束 描述 了 PRoroc-EBL 领域 理论 的 作用 :输出 假设 被 进一步 约束 以 使 其 派生 领域 理论 
和 数据 。 第 二 个 约束 减少 了 学 习 器 在 必须 选择 假设 时 面临 的 歧义 性 。 因 此 ,领域 理论 的 作用 
是 减少 假设 空间 的 有 效 规模 并 降低 学 习 的 样本 复杂 度 。 
使 用 相似 的 记号 可 描述 出 PRoLoc-EBG 所 需 的 领域 理论 的 知识 类 型 。 确 切 地 讲 , PRoLoc- 
EBG 假定 领域 理论 B 涵 蕴 训练 数据 中 实例 的 分 类 。 
CY (ai, fri EDIB A xi) KFC) (11.3) 
这 个 对 领域 理论 B 的 约束 保证 了 对 每 个 正 例 可 构造 出 解释 。 
将 PRoLoc-EBG 学 习 问 题 和 归纳 逻辑 编程 (第 10 章 ) 的 学 习 问题 相 比较 很 有 意义 。 第 10 
章 我 们 讨论 了 一 般 化 的 归纳 学 习 任 务 ,其 中 对 学 习 器 提供 了 背景 知识 及 。 我 们 使 用 B' 而 不 
是 B 来 代表 ILP 所 使 用 的 背景 知识 ,因为 它 一 般 不 满足 式 (11.3) 的 约束 。ILP 是 一 个 归纳 学 
习 系 统 , 而 PROL0G-EBG 是 演绎 学 习 系 统 。ILP 使 用 其 背景 知识 8' 来 扩大 待考 虑 的 假设 集 
合 ,而 PRoroc-EBG 使 用 其 领域 理论 B 来 减 小 可 接受 假设 的 集合 。 如 式 (10.2) 表 示 的 ,ILP 系 
统 输 出 的 h 满足 下 面 的 约束 : 
CV (xi, f(xi))E DB AhA x;) Ff(xi) 
注意 ,此 表达 式 与 PRoLoc-EBG 对 h 产生 的 约束 (由 式 (11.2) 和 式 (11.3) 给 出 ) 之 间 的 联 
系 。 这 个 在 h LW ILP 约束 是 式 (11.1) 中 约束 的 弱化 形式 。ILP 约束 只 要 求 (B' ARAN x) F 
f(xi) ,而 PRoLoc-EBG 要 求 更 严格 的 (h A xi) 上 f(x;)。 还 要 注意 ,ILP 中 没有 对 应 式 (11.2) 
中 PRoLoc-EBG 的 约束 。 


11.3.3 ”基于 解释 的 学 习 的 归纳 偏 置 


回忆 第 2 章 的 令 述 ,一 个 学 习 算法 的 归纳 偏 置 为 一 组 断言 ,它们 与 训练 样 例 一 起 演绎 涵 荀 学 
习 髓 的 后 续 预 测 。 归 纳 偏 置 的 重要 性 在 于 它 刻画 出 学 习 器 是 怎样 从 观察 到 的 训练 样 例 泛 化 的 。 

PRoLoc-EBG 的 归纳 偏 置 是 什么 ?在 PROLOC-EBG 中 ,如 式 (11.2) 所 描述 的 ,输出 的 假设 
h ADAB 中 演绎 派生 。 因 此 领域 理论 有 为 一 组 断言 ,它们 与 训练 样 例 一 起 涵 蕴 输出 假设 。 
由 于 学 习 器 的 预测 从 此 假设 h 中 派生 ,似乎 PRoLoc-EBG 的 归纳 偏 置 就 是 输入 学 习 器 中 的 领 


”这 里 在 涵 北 (上) 的 定义 中 包含 了 ProLoc 样式 的 失败 否定 ,因此 如 果 样 例 不 能 被 证 明 为 正 例 , 则 它们 被 涵 冀 为 反例 。 
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域 理论 有 。 实 际 上 可 以 这 样 认定 ,除了 还 需 考 虑 另外 一 个 细节 :领域 理论 可 涵 荀 多 个 可 选 的 
Hon 子 句 集 。 因 此 ,归纳 偏 置 还 需 包含 PRoLoc-EBG 在 这 些 可 选 的 Horn 子 句 集中 作出 选择 
的 内 容 。 如 上 面 所 讲 , PRoLoc-EBG 使 用 序列 覆盖 算法 不 断 形成 附加 的 Horn 子 句 直到 所 有 的 
正 例 被 覆盖 。 更 进一步 ,每 个 单独 的 Horn 子 句 是 当前 训练 样 例 的 解释 所 许可 的 最 一 般 子 句 
( 即 最 弱 前 像 )。 因 此 在 领域 理论 涵 蕴 的 各 Horn 子 句 集 之 中 ,我 们 可 以 将 PRoLoc-EBG 的 偏 置 
刻画 为 对 极 大 一 般 化 Hon 子 句 的 小 集合 的 偏好 。 实 际 上 PRoLoc-EBG 的 贪 禁 算法 只 是 为 寻 
找 极 大 一 般 化 Horn 子 句 的 真正 最 短 集合 所 需 的 彻底 搜索 算法 的 一 个 启发 式 的 近似 。 无 论 怎 
样 , PRoLoc-EBG 归纳 偏 置 仍 可 用 这 种 方式 近似 刻画 。 

近似 的 Poroc-EBG 归纳 偏 置 :领域 理论 B, 加 上 对 极 大 一 般 化 Horn 子 句 的 小 集合 的 偏好 。 

这 里 最 重要 的 要 点 在 于 , PRoLoc-EBG 的 归纳 偏 置 ( 即 它 从 训练 数据 中 泛 化 的 策略 ) 在 很 
大 程度 上 由 输入 的 领域 理论 确定 。 它 与 我 们 所 讨论 过 的 多 数学 习 算 法 完全 不 同 。 多 数学 习 算 
法 (如 ,神经 网 络 .决策 树 学 习 ) 中 归纳 偏 置 是 学 习 算 法 的 一 个 固定 属性 ,一 般 是 由 其 假设 表示 
的 语法 所 确定 的 。 为 什么 把 归纳 偏 置 作 为 一 个 输入 参数 而 不 是 学 习 器 的 固定 属性 十 分 重要 
呢 ? 这 是 因为 ,如 我 们 在 第 2 章 及 其 他 地 方 讨论 过 的 ,不 存在 一 个 全 局 有 效 的 归纳 偏 置 ,而 且 
无 偏 学 习 是 无 用 的 。 因 此 开发 通用 学 习 方 法 的 任何 尝试 ,都 至 少 会 允许 归纳 偏 置 能 够 随 待 解 
决 的 学 习 问 题 变 化 。 在 一 个 更 实践 性 的 层次 上 ,许多 学 习 任 务 很 自然 地 输入 领域 特定 的 知识 
(如 SafeToStack 例子 中 的 有 关 Weight 的 知识 ) 以 影响 学 习 器 从 训练 数据 中 泛 化 的 方法 。 相 
反 , 通 过 限制 假设 的 语法 形式 (如 ,偏好 短 决 策 树 ) 来 “实现 " 某 适当 的 偏 置 性 则 不 太 常 见 。 最 
后 ,如 果 考 虑 一 个 更 大 的 问题 ,一 个 自治 agent 如 何 随 着 时 间 改 进 它 的 学 习 能 力 , 那 么 最 好 是 
有 一 个 算法 , 它 的 泛 化 能 力 可 在 其 获得 更 多 的 领域 知识 后 增强 。 


11.3.4 知识 级 的 学 习 


如 式 (11.2) 指 出 的 ,由 PRoLoc-EBG 输出 的 假设 h 从 领域 理论 B 和 训练 数据 D 中 演绎 派 
生 。 实 际 上 ,通过 考查 PRoLoc-EBG 算法 ,很 容易 看 出 ,h 直接 从 单独 的 B 中 派生 ,而 与 D 无 
关 。 为 了 理解 这 一 点 ,我 们 可 以 假想 有 一 个 称 为 条 目 枚 举 器 (LEMMA-ENUMERATOR) 的 算法 。 
这 个 算法 基于 领域 理论 B 中 的 断言 简单 地 枚 举 能 得 到 目标 概念 的 所 有 证 明 树 。 对 每 个 证 明 
树 ,LEMMA-ENUMERATOR 用 与 PRoLoc-EBG 相似 的 方法 计算 最 弱 前 像 并 构造 一 个 Horn 子 句 。 
在 LEMMA-ENUMERATOR 和 ProLoc-EBG 之 间 惟 一 的 不 同 是 , Lemma-ENUMERATOR 忽略 训练 数 
据 并 枚 举 出 所 有 的 证 明 树 。 

注意 ,LEMMA-ENUMERATOR 输出 的 是 PRoLoc-EBG 输出 Horn 子 句 的 超 集 。 这 一 事实 引发 
了 几 个 问题 。 第 一 ,如 果 它 的 假设 单独 从 领域 理论 中 派生 ,那么 PRoLoc-EBG 中 训练 数据 有 什 
么 作用 ?答案 是 ,训练 样 例 使 PRoLoc-EBG 关注 覆盖 实际 出 现 的 样 例 分 布 的 生成 规则 。 例 如 ， 
在 原来 的 下 棋 例子 中 ,所 有 可 能 的 条 目 数 很 大 ,而 在 通常 对 弈 中 出 现 的 棋盘 状态 只 是 语法 上 可 
能 出 现 的 棋盘 状态 的 一 小 部 分 。 因 此 ,程序 通过 只 关注 实际 上 会 遇 到 的 训练 样 例 , 比 尝试 枚 举 
棋盘 的 所 有 可 能 条 目 更 可 能 得 到 更 小 的 .更 相关 的 规则 集 。 

第 二 个 问题 是 ,PRoLoc-EBG 是 否 能 学 习 到 一 个 超出 隐 含 在 领域 理论 中 的 知识 的 假设 ? 
换言之 , 它 是 否 能 学 习 到 一 个 实例 的 分 类 ,这 个 实例 不 能 用 原始 的 领域 理论 进行 分 类 (假定 定 
理 证 明 器 有 无 限 的 计算 资源 )? 遗憾 的 是 , 它 不 能 做 到 。 如 果 B 上 -h, 那 么 任何 由 h WAK 
类 也 将 由 B 涵 缠 。 这 是 否 是 分 析 学 习 或 演绎 学 习 的 固有 缺陷 ? 并 非 如 此 ,如 下 例 所 示 。 
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举 一 个 演绎 学 习 的 例子 ,其 中 学 习 到 的 假设 h 可 涵 蕴 B 不 能 涵 蕴 的 结论 。 我 们 必须 创建 
一 个 B Kh 但 DAB 上 h 的 例子 (回忆 式 (11.2) 给 出 的 约束 )。 可 以 考虑 B 包含 这 样 的 断言 
“E x 满足 目标 概念 ,那么 g(x) 也 满足 单独 这 个 断言 不 能 涵 蕴 任何 实例 的 分 类 。 然 而 ,一 
但 我 们 观察 到 一 个 正 例 , 它 允 许 演 绎 泛 化 到 其 他 未 见 实例 。 例 如 ,考虑 学 习 PlayTennis HA 
标 概念 , 它 描述 了 Ross 希望 打 网 球 的 日 子 。 假 如 每 个 日 子 只 被 描述 为 单个 属性 Humidity ,并 
且 领 域 理论 包含 单个 断言 "如果 Ross 喜欢 在 湿度 (Humidity) 为 x 的 日 子 打 网 球 ,那么 他 也 喜 
欢 在 湿度 小 于 x 的 日 子 打 网 球 ”, 可 被 形式 化 地 描述 为 : 

(yx) IF ((PlayTennis = Yes)<-( Humidity = x )) 

THEN ((PlayTennis = Yes) <-( Humidity < x )) 

注意 ,此 领域 理论 不 会 对 PlayTennis YS BA PBB LE Fe E Bi] AR LE Ee fhe BR A AE fa E. 
然而 ,一 但 学 习 器 观察 到 一 个 正 例 中 Humidity = 0.3, 领 域 理论 连同 此 正 例 一 起 涵 列 到 下 面 的 
一 般 假 设 h: 

( PlayTennis = Yes) <-( Humidity <0. 30) 

概括 起 来 ,此 例子 描述 了 一 种 情形 ,其 中 BY AA BAD 上 h。 这 里 学 到 的 假设 涵 蕴 的 预 
测 不 能 被 单独 的 领域 理论 涵 蕴 。 术 语 “ 知 识 级 的 学 习 ” 有 时 被 用 于 称 这 种 类 型 的 学 习 , 其 中 学 
习 到 的 假设 涵 蕴 的 预测 超出 了 能 被 领域 理论 涵 蕴 的 范围 。 由 断言 集合 Y 涵 列 的 所 有 预测 的 
集合 常 称 为 了 ARH é (deductive closure)。 这 里 的 关键 区 别 在 于 ,知识 级 的 学 习 中 B 的 演 
ZARE B +h 演绎 闭 包 的 真子 集 。 

知识 级 的 分 析 学 习 的 另 一 个 例子 是 ,考虑 一 种 类 型 的 断言 ,通常 称 为 determination, 有 关 
它 的 细节 见 Russel(1989) 以 及 其 他 一 些 研究 。Determination 断言 ,实例 的 某 属 性 完全 取决 于 
某 些 特定 属性 ,但 不 必 指 明 这 种 依赖 性 的 确切 性 质 。 例 如 ,考虑 学 习 一 个 目标 概念 “说 葡萄 牙 
语 的 人 ”, 并 且 假 定 领 域 理 论 为 单个 determination 断言 “ 某 人 说 的 语言 由 他 的 国籍 决定 。” 只 7 
这 条 领域 理论 ,不 能 够 用 来 分 类 正 例 和 反例 。 然 而 ,如 果 我 们 观察 到 “Joe,23 岁 , 左 撒 子 ,巴西 
人 ,说 葡萄 牙 语 ” ,那么 我 们 就 可 以 此 正 例 和 领域 理论 中 得 到 ;“ 所 有 的 巴西 人 都 说 葡萄 牙 语 ”。 

这 些 例子 都 演示 了 分 析 学 习 如 何 产生 不 能 由 领域 理论 单独 涵 蕴 的 假设 。 其 中 的 输出 假设 
h 都 满足 DA 上 ,但 不 满足 B 上 h。 在 两 种 情况 下 ,学习 器 都 演绎 (deduce) 出 一 个 合理 的 假 
设 , 它 既 不 能 从 领域 理论 中 单独 派生 ,也 不 能 从 训练 数据 中 单独 派生 。 


11.4 搜索 控制 知识 的 基于 解释 的 学 习 


从 上 述 可 知 ,PROLOG-EBG 算法 的 实际 能 力 受 领域 理论 必须 正确 且 完 整 这 一 要 求 限制 。 
能 够 满足 这 一 要 求 的 学 习 问 题 的 一 个 重要 类 别 为 通过 学 习 使 复杂 的 搜索 程序 速度 加 快 。 实 际 
上 ,应 用 基于 解释 的 学 习 的 最 大 规模 的 尝试 已 经 开始 解决 学 习 控制 搜索 的 问题 , 它 有 时 又 被 称 
为 “< 加速 "学 习 。 例 如 , 像 棋 类 这 样 的 对 弈 中 ,对 合法 搜索 操作 的 定义 以 及 搜索 目标 的 定义 提供 
了 学 习 搜 索 控 制 知识 的 一 个 完整 且 正 确 的 领域 理论 。 

如 何 确切 地 定义 学 习 搜索 控制 问题 的 形式 来 使 用 基于 解释 的 学 习 ? 考虑 一 个 一 般 搜索 问 
题 ,其 中 $ 为 可 能 搜索 状态 的 集合 , 0 为 合法 搜索 算 子 的 集合 , 它 将 一 种 搜索 状态 转换 成 另 一 
种 搜索 状态 ,而 且 CHES 上 定义 的 谓词 , 它 表示 哪 种 状态 为 目的 状态 。 问 题 一 般 是 寻找 一 
系列 的 算 子 , 它 将 任意 初始 状态 s 转化 为 菜 最 终 状态 sy ,使 目的 谓词 6 得 到 满足 。 定 义学 习 
问题 形式 的 一 种 办 法 是 让 系统 对 0 中 每 个 算 子 学 习 一 个 分 立 的 目标 概念 。 确 切 地 讲 , 对 0 
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中 每 个 算 子 。, 它 可 尝试 学 习 目 标 概念 “能 用 o 导致 目的 状态 的 状态 集合 " 。 当 然 究 竟 选 择 哪 
一 个 作为 待 学 习 的 目标 状态 ,依赖 于 必须 使 用 此 学 习 到 的 知识 的 问题 求解 器 的 内 部 结构 , 例 
如 ,如 果 问 题 求解 器 是 一 个 means-ends 规划 系统 , 它 的 工作 过 程 是 建立 和 解决 子 目的 ,那么 我 
们 希望 学 习 的 目标 概念 可 以 是 “规划 状态 集合 ,其 中 4 类 型 的 子 目 标 必须 在 B 类 型 子 目标 之 
前 被 解决 。 

使 用 基于 解释 的 学 习 以 改进 其 搜索 的 一 个 系统 是 PRODIGY(Carbonell et al. 1990), Propi- 
cy 是 一 个 领域 无 关 的 规划 系统 , 它 接受 以 状态 空间 s 和 算 子 集合 0 定义 的 问题 领域 。 然 后 
它 解决 这 种 形式 的 问题 :寻找 一 个 算 子 序列 使 初始 状态 s 转换 到 满足 目的 谓词 6 的 状态 。 
Propicy 使 用 一 个 means-ends 规划 器 将 问题 分 解 为 子 目标 ,解决 这 些 子 目标 ,然后 合并 起 来 成 
为 整个 问题 的 解 。 这 样 ,在 搜索 问题 解 的 过 程 中 Provicy 重复 面临 这 样 的 问题 :下 一 步 要 解 
决 的 是 哪个 子 目 标 ?” 以 及 “为 解决 此 子 目标 要 用 哪个 算 子 ?”Minton( 1988) 描 述 了 将 基于 解释 
的 学 习 集成 到 PRopicY 的 过 程 ,方法 是 定义 一 组 适合 于 这 种 不 断 遇 到 的 控制 决策 的 目标 概 
念 。 例 如 ,一 个 目标 概念 是 “ 子 目标 4 必须 在 子 目标 B 之 前 解决 的 状态 集合 。 对 这 个 目标 概 
念 ,由 Propicy 学 到 的 规则 在 简单 的 物体 堆 释 问 题 中 的 一 个 例子 为 : 

IF 待 解决 的 子 目标 之 一 为 On(x,y), 并 且 

待 解 决 的 子 目标 之 一 为 On(y,z) 

THEN 在 On(x,y) 之 前 解决 On(y,z) 

为 理解 此 规则 ,再 次 考虑 图 9-3 中 示例 的 简单 的 块 状 物体 堆 乔 问题。 在 图 示 的 问题 中 , 目 
的 是 将 物 块 堆 双 成 为 单词 universal。PRopicY 将 把 此 问题 分 解 为 几 个 要 达到 的 子 目 标 ,包括 
On(U, N)、On(N, 71) 等 。 注 意 上 面 的 规则 匹配 子 目标 On(U, N)A On(N, 1) FFA 
议 在 解决 子 问题 0n( U, N) 之 前 解决 On(N,1)。 原 因 是 (以 及 PRonpIcY 用 于 学 习 此 规则 的 
解释 ) 如 果 我 们 以 逆序 解决 这 两 个 子 目 标 将 会 遇 到 冲突 ,从 而 必须 撤销 On( UV ，N ) 的 解 以 得 
到 另 一 子 目标 On(N, I)o Pronicy 的 学 习 过 程 首 先 遇 到 这 样 一 个 冲突 ,然后 自我 解释 冲突 
的 原因 ,并 创建 一 个 类 似 于 以 上 的 规则 。 其 效果 在 于 Pronicy 使 用 关于 可 能 的 子 目标 冲突 的 
领域 无 关 的 知识 及 关于 特定 算 子 的 领域 特定 的 知识 (如 ,机 器 人 只 能 一 次 举 起 一 个 物 块 ) ,以 学 
习 到 有 用 的 领域 特定 的 规划 规则 ,如 上 面 例 示 的 规则 。 

使 用 基于 解释 的 学 习 获 取 Provicy 的 控制 知识 ,已 经 在 不 同 的 问题 领域 中 例 示 。 包 括 上 
面 简单 的 物 块 堆 释 问题 ,以 及 其 他 更 复杂 的 调度 和 规划 问题 。Minton(1988) 报 告 了 3 个 领域 
中 的 实验 ,其 中 学 习 到 的 控制 规则 把 问题 求解 的 效率 提高 了 2 到 4 倍 。 更 进一步 ,这 些 学 到 的 
规则 的 性 能 在 这 3 个 问题 中 与 手写 规则 有 可 比 性 。Minton 也 描述 了 对 基本 的 基于 解释 学 习 
的 若干 扩展 ,它们 提高 了 学 习 控制 知识 的 效率 。 方 法 包括 简化 学 习 到 的 规则 以 及 去 除 那 些 收 
益 小 于 开销 的 规则 。 

另 一 个 结合 了 某 种 形式 的 基于 解释 学 习 的 一 般 问 题 求解 框架 为 SoAR 系统 (Laird et al. 
1986; Newell 1990) 。SoAR 支持 范围 较 宽 的 问题 求解 策略 ,包含 了 PRODICY 的 means-ends 规 
划 策略 在 内 。 然 而 , 像 PRonpicy 一 样 ,SoAR 中 的 学 习 是 通过 解释 当前 的 控制 策略 为 什么 导致 
低 效 。 当 它 遇 到 一 个 搜索 选择 ,其 中 没有 一 个 确定 无 疑 的 答案 时 (如 ,下 一 步 该 应 用 哪 一 个 算 
子 ) ,SoAR 思考 这 个 搜索 僵局 ,使 用 如 生成 再 测试 这 种 弱化 的 方法 来 决定 正确 的 行动 方向 。 用 
来 解决 这 种 僵局 的 推理 可 被 理解 为 对 将 来 怎样 解决 类 似 僵局 的 解释 。SoAR 使 用 另 一 种 不 同 
的 基于 解释 的 学 习 , 称 为 chunking, 以 抽出 可 应 用 相同 解释 的 一 般 条 件 。SoAR 已 被 应 用 于 多 
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数 的 问题 领域 ,并 被 提议 为 人 类 学 习 过 程 中 一 种 心理 学 上 可 行 的 模型 ( 见 Newell 1990 )。 

PRopIcY 和 Soar 演示 了 基于 解释 的 学 习 方 法 可 被 成 功 应 用 于 不 同 问题 领域 来 获取 搜索 控 
制 知 识 。 然 而 ,大 多 数 启发 式 搜索 程序 仍然 使 用 类 似 于 第 1 章 描述 的 数值 评估 函数 ,而 不 是 由 基 
于 解释 的 学 习 获 取 的 规则 。 原 因 是 什么 ? 实际 上 有 一 些 重要 的 实践 问题 应 用 了 EBL 学 习 搜索 
控制 。 首 先 ,在 许多 情况 下 必须 学 习 的 控制 规则 的 数目 非常 大 (如 , 数 千 个 规则 )。 当 系统 学 习 到 
改进 搜索 的 越 来 越 多 的 控制 规则 时 ,要 花 去 越 来 越 大 的 开销 ,才能 在 每 步 中 匹配 这 组 规则 对 应 当 
前 搜索 状态 。 注 意 ,这 个 问题 并 不 只 局 限于 基于 解释 的 学 习 , 它 在 用 增长 的 规则 集 表示 学 到 知识 
的 任意 系统 中 都 会 出 现 。 有 效 的 匹配 规则 算法 可 缓和 这 一 问题 ,但 不 能 完全 消除 它 。Minton 
(1988) 讨 论 了 经 验 地 估计 每 个 规则 的 计算 开销 和 收益 的 策略 ,只 在 估计 的 收益 超过 估计 的 开销 
时 才学 习 这 些 规则 ,并 在 某 些 规则 有 负 效 用 时 删除 它们 。 他 描述 了 如 何 使 用 这 种 效用 分 析 来 确 
定 哪 些 应 被 学 习 哪 些 该 忘记 ,很 大 地 增强 了 PRopicy 中 基于 解释 学 习 的 有 效 性 。 例 如 ,在 一 系列 
机 器 人 的 物 块 堆 倒 问题 中 , PRopIcY 遇 到 了 328 个 机 会 可 学 习 一 个 新 规则 ,但 只 利用 了 其 中 69 
个 ,并 且 最 终 去 除了 低 效 用 的 规则 后 剩余 19 个 规则 。Tambe et al. (1990) 和 Doorenbos(1993) 讨 论 
了 怎样 确定 规则 中 匹配 开销 特别 大 的 类 型 ,并 讨论 了 将 这 些 规 则 重新 表示 为 更 有 效 的 形式 和 优 
化 规则 匹配 的 算法 。Doorenbos(1993) 描 述 了 这 些 方法 怎样 使 Soar 在 一 个 问题 领域 中 有 效 匹配 
100 000 条 规则 ,而 不 会 显著 增加 对 每 个 状态 匹配 规则 的 开销 。 

应 用 EBL 以 学 习 搜 索 控制 的 第 二 个 问题 是 ,多 数 情况 下 即使 对 希望 的 目标 概念 建立 解释 
也 很 难处 理 。 例 如 ,在 棋 类 问题 中 我 们 可 能 希望 学 习 一 个 目标 概念 :操作 4 导致 最 优 解 的 状 
态 。 遗憾 的 是 ,为 证 明 或 解释 为 什么 4 导致 最 优 解 需要 解释 其 他 的 算法 会 导致 不 如 4 的 解 。 
这 一 般 需 要 搜索 指数 级 深度 的 计算 量 。Chien(1993) 和 Tadepalli(1990) 探 索 了 “消极 "学 习 和 
“ 增 量 " 学 习 的 方法 ,其 中 启发 式 规则 被 用 于 产生 部 分 的 .近似 的 .但 易 计算 的 解释 。 与 解释 是 
完美 的 情况 一 样 , 一 些 规 则 被 从 这 些 不 完美 的 解释 中 抽取 出 来 。 当 然 这 些 学 到 的 规则 会 由 于 
解释 的 不 完整 性 而 不 正确 。 系 统 通 过 监视 在 后 续 情 况 下 规则 的 性 能 来 处 理 此 问题 。 如 果 规 则 
后 来 出 错 ,那么 原始 的 解释 被 增 量 地 完善 以 覆盖 新 的 情况 ,并 且 从 此 解释 中 抽取 出 更 好 的 规 
则 。 

为 改进 基于 搜索 的 问题 求解 器 的 效率 ,许多 其 他 研究 工作 探索 了 基于 解释 的 学 习 的 应 用 
(如 , Mitchell 1981, Silver 1983, Shavlik 1990, Mahadevan et al. 1993, Gervasio & Dejong 
1994; Dejong 1994). Bennett & Dejong (1996) 研 究 了 基于 解释 学 习 在 机 器 人 规划 系统 的 应 
用 ,此 系统 中 描述 其 世界 和 行为 的 领域 理论 是 不 完美 的 。Dietterich & Flann (1995) 探 索 了 基 
于 解释 学 习 和 增强 学 习 ( 见 第 13 章 ) 的 集成 。Mitchell & Thrun(1993) 描 述 了 将 一 个 基于 解释 
的 神经 网 络 学 习 方 法 ( 见 第 12 章 讨论 的 EBNN 算法 ) 应 用 到 增强 学 习 问 题 中 。 


11.5 小 结 和 补充 读物 


本 章 的 要 点 包括 ; 

e 纯粹 的 归纳 学 习 方法 寻找 一 个 假设 以 拟 合 训练 数据 ,与 此 不 同 ,纯粹 的 分 析 学 习 方 法 搜 
寻 一 个 假设 拟 合 学 习 器 的 先 验 知识 并 覆盖 训练 样 例 。 人 类 经 常 使 用 先 验 知识 指导 新 假 
设 的 形成 。 本 章 考查 了 纯粹 的 分 析 学 习 方法 。 下 一 章 介绍 归纳 -分 析 学 习 的 结合 。 

o 基于 解释 的 学 习 是 分 析 学 习 的 一 种 形式 ,其 中 学 习 器 处 理 每 个 新 训练 样 例 的 方法 是 : 
(1) 按 照 领域 理论 解释 该 样 例 中 观察 到 的 目标 值 ;(2) 分 析 此 解释 ,确定 解释 成 立 的 一 般 
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条 件 ;(3) 改 进 假设 ,合并 这 些 一 般 条 件 。 
© PROLOG-EBG 是 基于 解释 的 学 习 算 法 , 它 使 用 一 阶 Horn 子 句 来 表示 其 领域 理论 和 学 到 
的 假设 。 在 PRoLoc-EBG 中 ,解释 即 为 PRoLoc 证 明 ,而 从 解释 中 抽取 的 假设 是 此 证 明 
的 最 弱 前 像 。 作 为 结果 ,由 PRoLoc-EBG 输出 的 假设 从 其 领域 理论 中 演绎 派生 。 
© 如 PROLOC-EBG 这 样 的 分 析 学 习 方 法 建立 有 用 的 中 间 特 征 , 它 是 分 析 单 独 训练 样 例 的 
一 个 副产品 。 这 种 生成 特征 的 分 析 途 径 补充 了 如 反 疝 传播 这 样 的 归纳 方法 中 基于 统计 
方法 的 中 间 特 征 生成 (如 ,隐藏 单元 特征 )。 
@ 虽然 PRoLoc-EBG 不 会 产生 能 扩展 其 领域 理论 的 演绎 闭 包 的 假设 ,其 他 演绎 学 习 过 程 
有 这 个 能 力 。 例 如 ,一 个 包含 determination 断言 (如 “国籍 确定 语言 ”) 的 领域 理论 可 被 
用 手 与 训练 数据 一 起 演绎 推理 超出 领域 理论 的 演绎 闭 包 的 假设 。 
e 可 应 用 正确 且 完 整 的 领域 理论 的 一 类 重要 问题 是 大 的 状态 空间 的 搜索 问题 。 如 Pron- 
cy 和 Soar 这 样 的 系统 已 显示 了 基于 解释 的 学 习 方 法 的 效用 ,它们 自动 获取 有 效 的 搜 
索 规 则 以 加 速 后 续 的 问题 求解 。 
© 虽然 基于 解释 的 学 习 方 法 对 人 类 来 说 很 有 用 ,但 纯粹 的 演绎 实现 (如 ,PRoLoc-EBG) 有 
一 缺点 是 它 输出 的 假设 的 正确 性 只 在 领域 理论 正确 时 才能 保证 。 下 一 章 , 我 们 考查 了 
结合 归纳 和 分 析 学 习 方 法 的 途径 ,从 不 完美 的 领域 理论 和 有 限 训练 数据 中 有 效 学 习 。 
分 析 学 习 方法 的 根源 可 追溯 到 Fikes et al.(1972) 早 期 的 工作 , 它 可 通过 对 ABSTRIPS 中 
的 算 子 的 分 析 学 习 宏 算 子 (macro-operator) 。 较 迟 一 些 的 是 Soloway(1977) 的 研究 ,他 在 学 习 
中 使 用 明确 的 先 验 知识 。 类 似 于 本 章 讨论 的 基于 解释 的 学 习 方 法 首先 出 现 于 几 个 20 世纪 80 
年 代 早 期 开发 的 系统 中 ,包括 DeJong(1981)、Mitchell(1981)、Winston et al. (1983) 和 Silver 
(1983)。DeJong & Mooney(1986) 和 Mitchell et al.(1986) 提 供 了 对 基于 有 解释 学 习 方法 的 一 
般 描述 ,这 些 引发 了 20 世纪 80 年 代 晚 期 对 这 个 主题 的 研究 热潮 。 由 依 里 诺 斯 大 学 所 做 的 一 
系列 基于 解释 的 学 习 的 研究 由 DeJong (1993) 描 述 ,其 中 包括 修改 解释 的 结构 从 循环 的 和 临时 
的 解释 中 正确 泛 化 。 更 多 最 近 的 研究 着 重 于 扩展 基于 解释 的 方法 使 用 不 完美 的 领域 理论 以 及 
结合 归纳 学 习 和 分 析 学 习 ( 见 第 12 章 )。 关 于 目的 和 先 验 知识 在 人 类 和 机 器 学 习 中 的 作用 ， 
Ram & Leake (1995) 给 出 了 一 个 综合 的 叙述 , 而 近期 基于 解释 的 学 习 的 概览 见 DeJong 
(1997)。 
应 用 完美 领域 理论 的 最 严肃 的 尝试 是 在 学 习 搜索 控制 的 领域 或 “加 速 " 学 习 。 由 Laird et 
al. (1986) 提 出 的 Soar 系统 和 Carbonell et al. (1990) 描 述 的 Pronicy 系统 是 使 用 基于 解释 的 
学 习 来 学 习 问 题 求 解 的 两 个 最 成 熟 的 系统 。Rosenbloom & Laird (1986) 讨 论 了 SoAR 的 学 习 
方法 ( 称 为 “chunking”) 和 其 他 基于 解释 学 习 方 法 之 间 的 紧密 联系 。 最 近 , Dietterich & Flann 
(1995) 探 索 了 学 习 搜 索 控制 的 方法 ,这 种 方法 结合 了 基于 解释 的 学 习 和 增强 学 习 。 
虽然 这 里 的 主要 目的 是 研究 机 器 学 习 算 法 ,但 仍 需 注意 到 ,对 人 类 学 习 的 实验 性 研究 支持 
了 这 样 一 个 猜想 , 即 人 类 的 学 习 是 基于 解释 的 。 例 如 ,Ahn et al. (1987) 和 Qin et al. (1992) 概 
述 了 支持 人 类 应 用 基于 解释 的 学 习 过 程 这 一 猜想 的 证 据 。Wisniewski & Medin(1995) 描 述 了 
对 人 类 学 习 的 实验 性 研究 , 它 建议 在 先 验 知识 和 观察 数据 之 间 进 行 丰富 的 相互 作用 以 影响 学 
习 过 程 。Kotovsky & Baillargeon(1994) 描 述 的 实验 说 明 ,即使 11 个 月 大 的 婴儿 在 学 习 时 也 是 


基于 其 先 验 知识 的 。 
基于 解释 的 学 习 中 执行 的 分 析 类 似 于 PRoLoc 程序 中 使 用 的 几 类 程序 优化 方法 ,比如 ,部 
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分 评估 ( partial evaluation)。 Van Harmelen & Bundy (1988) 提 供 了 对 此 关系 的 讨论 。 
习题 
11.1 考虑 学 习 问 题 , 它 的 目标 概念 是 “居住 在 同一 房屋 内 的 两 个 人 , ”表示 为 谓词 House- 


Mates( x, y) 。 下 面 为 此 概念 的 一 个 正 例 : 
HouseMates( Joe, Sue) 


Person ( Joe) Person( Sue) 

Sex (Joe, Male) Sex (Sue, Female) 
HairColor( Joe, Black) HairColor( Sue, Brown) 
Height (Joe, Short) Height (Sue, Short) 


Nationality( Joe, US) Nationality( Sue, US) 

Mother ( Joe, Mary) Mother( Sue, Mary) 

Age( Joe, 8) Age( Sue, 6) 

下 面 的 领域 理论 有 助 于 获取 HouseMates 概念 : 

HouseMates( x, y)<-InSameFamily(x, y) 

HouseMates(x, y) «-FraternityBrothers( x , y) 

InSameFamily( x, y) -Married (x, y) 

InSameFamily( x, y) < Youngster(x) A Youngster(y) A SameMother( x,y) 

SameMother( x,y) <- Mother(x,z) M Mother(y,z) 

Youngster (x) <-Age(x,a) A LessThan(a, 10) 

应 用 PRoLoc-EBG 算法 到 泛 化 上 述 实例 的 任务 中 ,使 用 上 面 的 领域 理论 。 确 切 地 讲 : 

(a) 手动 执行 PROLOG-EBG 算法 应 用 于 此 问题 ,也 就 是 说 , 写 出 对 此 实例 生成 的 解释 ， 
写 出 此 解释 中 回归 目标 概念 的 结果 以 及 得 到 的 Horn 子 句 规则 。 

(b) 假定 目标 概念 为 “与 Je 住 在 一 起 的 人 "而 不 是 “ 住 在 一 起 的 两 个 人 。" 用 上 面 的 相 
同 的 形式 化 的 方法 写 出 目标 概念 。 假 定 训练 实例 和 领域 理论 与 以 前 相同 , PRoLoc- 
EBG 对 此 新 目标 概念 产生 的 Horn 子 句 是 什么 ? 

11.2 如 第 11.3.1 节 指 出 的 ， PROLOG-EBG 可 构造 出 有 用 的 新 特征 ,这 些 新 特征 不 是 实例 的 
显 式 特征 ,但 它们 是 用 显 式 特征 定义 的 ,并 且 有 助 于 描述 合适 的 泛 化 。 这 些 特 征 的 推导 
是 分 析 训 练 样 例 解释 的 一 个 副 效应 。 推 导 有 用 特征 的 另 一 方法 是 对 多 层 神经 网 络 使 用 
反 向 传播 算法 ,其 中 新 特征 是 基于 大 量 样 例 的 统计 属性 由 隐藏 单元 学 习 到 的 。 能 否 推 
荐 一 种 方法 ,可 以 结合 这 些 分 析 的 和 归纳 的 途径 来 生成 新 特征 ? (警告: 这 是 一 个 待 解 
决 的 研究 问题 )。 
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第 12 章 归纳 和 分 析 学 习 的 结合 


纯粹 的 归纳 学 习 方 法 通过 在 训练 样 例 中 寻找 经 验 化 的 规律 来 形成 一 般 假设 。 纯 粹 的 分 析 
方法 使 用 先 验 知识 演绎 推导 一 般 假设 。 本 章 考虑 将 归纳 和 分 析 的 机 制 结合 起 来 的 方法 ,获得 
两 者 的 优点 :有 先 验 知识 时 更 高 的 泛 化 精度 和 依赖 训练 数据 克服 先 验 知识 的 不 足 。 所 得 到 的 
结合 的 方法 比 纯粹 的 归纳 学 习 方法 和 纯粹 的 分 析 学 习 方 法 性 能 都 要 高 。 本 章 考虑 的 归纳 -分 
析 学 习 方 法 同时 基于 符号 表示 和 人 工 神经 网 络 表示 。 


12.1 动机 


在 前 几 章 已 经 见 到 两 种 类 型 的 机 器 学 习 : 归 纳 学 习 和 分 析 学 习 。 归 纳 方 法 如 决策 树 归纳 
和 神经 网 络 反 向 传播 等 , 它 寻 找 拟 合 训练 数据 的 一 般 假 设 。 分 析 的 方法 如 PRoLoc ~ EBG, È 
寻找 拟 合 先 验 知识 的 一 般 假 设 , 同 时 使 它 覆 盖 训 练 数据 。 这 两 种 学 习 类 型 对 假设 的 论证 方法 
有 根本 的 区 别 , 因 此 , 优 缺 点 互 为 补充 ,将 它们 结合 起 来 有 可 能 得 到 更 强 有 力 的 学 习 方 法 。 

纯粹 的 分 析 学 习 方 法 优点 在 于 ,可 用 先 验 知识 从 较 少 的 数据 中 更 精确 地 泛 化 以 引导 学 习 ， 
然而 当先 验 知识 不 正确 或 不 足 时 ,这 一 方法 可 能 会 产生 误导 。 纯 粹 的 归纳 方法 具有 的 优点 是 
不 需要 显 式 的 先 验 知识 ,并 且 主 要 基于 训练 数据 学 习 规律 。 然 而 ,车 训练 数据 不 足 时 它 会 失 
败 , 并 且 会 被 其 中 隐 式 的 归纳 偏 置 所 误导 ,而 归纳 偏 置 是 从 观察 数据 中 泛 化 所 必需 的 。 表 12-1 
概述 了 两 者 的 互补 的 优点 和 缺陷 。 本 章 考虑 的 问题 是 怎样 将 二 者 结合 成 一 个 单独 的 算法 来 获 
得 它们 各 自 的 优点 。 

表 12-1 纯粹 的 分 析 学 习 和 纯粹 归纳 学 习 的 比较 





归纳 学 习 分 析 学 习 
目标 拟 合 数据 的 假设 拟 合 领域 理论 的 假设 
论证 统计 推理 演绎 推理 
优点 需要 很 少 先 验 知识 从 称 少 的 数据 中 学 习 
缺陷 BOWIE REAM 不 完美 的 领域 理论 


归纳 和 分 析 学 习 方 法 之 间 的 不 同 可 从 它们 对 学 习 到 的 假设 进行 的 论证 (justification) 性 质 
中 看 出 。 由 纯粹 的 分 析 学 习 ( 如 , PRoLoc ~ EBG) 输 出 的 假设 执行 的 是 远 辑 论证 :输出 的 假设 
从 领域 理论 和 训练 数据 中 演绎 派生 。 纯 粹 的 归纳 学 习 方 法 (如 , 反 向 传播 ) 输 出 的 假设 执行 的 
是 统计 论证 :输出 的 假设 从 统计 论据 中 派生 , 它 说 明 训 练 样本 足够 大 ,从 而 能 代表 样 例 的 基本 
分 布 。 归 纳 的 统计 论证 在 第 7 章 讨论 的 PAC 学 习 中 已 被 清晰 地 阐明 。 

由 于 分 析 方 法 提出 逻辑 论证 的 假设 ,而 归纳 方法 提供 统计 论证 的 假设 ,很 容易 看 出 将 两 者 
结合 起 来 的 好 处 是 什么 。 逻 辑 论证 的 强度 只 相当 于 它们 所 基于 的 假定 或 先 验 知识 。 如 果 先 验 
知识 不 正确 或 不 可 知 ,逻辑 论证 是 不 可 信和 无 说 服 力 的 。 统 计 论证 的 强度 依赖 于 它们 基于 的 
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数据 和 统计 假定 。 当 基准 分 布 不 可 信和 或 数据 稀少 时 ,统计 论证 也 是 不 可 信和 且 无 力 的 。 简 而 言 
之 ,两 种 方法 针对 不 同类 型 的 问题 时 才 有 效 。 通 过 两 者 的 结合 ,有 望 开发 出 更 通用 的 学 习 方 
法 ,可 以 覆盖 较 广 的 学 习 任 务 。 
图 12-1 概述 了 学 习 问 题 的 分 布 范围 , 它 随 着 可 获得 的 先 验 知识 和 训练 数据 不 同 而 变化 。 

在 一 个 极端 ,有 大 量 的 训练 数据 ,但 没有 先 验 知识 。 在 另 一 极端 ,有 很 强 的 先 验 知识 ,但 训练 数 
据 很 少 。 多 数 实际 学 习 问 题 位 于 这 两 个 极端 之 间 。 例 如 ,通过 分 析 医 疗 记录 的 数据 库 来 学 习 
“治疗 手段 x 比 治疗 手段 y 更 有 效 的 病症 ”, 通 常 可 以 从 近似 的 先 验 知识 开始 (如 ,疾病 中 内 在 
的 因果 机 制 的 定性 模型 ) ,比如 认定 患者 的 体温 比 他 的 姓名 更 相关 。 类 似 地 ,在 分 析 一 个 股票 
市 场 数 据 库 来 学 习 目 标 概念 “股票 值 在 后 10 个 月 会 翻番 的 公司 ”中 ,如 果 已 有 了 经 济 学 的 大 概 
知识 ,可 以 提出 公司 的 总 利润 比 公 司 标志 的 颜色 更 相关 。 在 这 两 种 问题 中 ,我 们 的 先 验 知识 是 
不 完整 的 ,但 显然 , 它 有 助 于 区 分 相关 和 不 相关 的 特征 。 

归纳 学 习 分 析 学 习 

em ou 





在 最 左 端 ,没有 可 用 的 先 验 知识 ,因此 需要 纯粹 的 归纳 学 习 方法 以 及 较 高 的 样本 复杂 度 。 在 最 右 端 , 有 完美 的 
领域 理论 ,可 以 使 用 如 PhoLoc - EBG 这 样 的 纯粹 分 析 方法 。 更 多 的 实际 问题 位 于 这 两 个 极端 之 间 


图 12-1 学 习 任 务 的 分 布 范围 


本 章 考虑 的 问题 是 :“ 我 们 可 以 设计 出 怎样 的 算法 ,使 用 近似 的 先 验 知识 结合 可 用 数据 来 
形成 一 般 假设 ?” 注 意 ,即使 在 使 用 纯粹 的 归纳 学 习 算法 时 , 仍 有 机 会 基于 特定 学 习 任 务 的 先 验 
知识 来 选择 设计 方案 。 例 如 , 当 应 用 反 向 传播 来 解决 语音 识别 这 样 的 问题 时 ,设计 者 必须 选择 
输入 和 输出 数据 的 编码 方式 、 在 梯度 下 降 中 被 最 小 化 的 误差 函数 、 隐 藏 单元 的 数量 网络 的 拓 
扑 结构 .学习 速率 和 冲 量 等 。 在 做 这 些 选 择 时 ,设计 者 可 以 将 领域 特定 的 知识 能 人 到 学 习 算 法 
中 。 然 而 结果 仍然 是 纯粹 的 归纳 算法 反 向 传播 的 一 个 实现 ,由 设计 者 针对 语音 识别 任务 进行 
特殊 化 。 我 们 感 兴趣 的 不 在 于 此 ,而 是 一 个 系统 能 将 先 验 知识 作为 显 式 的 输入 给 学 习 器 ,训练 
数据 也 同样 作为 显 式 输入 。 这 样 它们 仍 为 通用 的 算法 ,但 利用 了 领域 的 特定 知识 。 简 要 概括 
一 下 ,我们 感 兴趣 的 是 领域 无 关 算法 ,这 种 算法 使 用 显 式 输入 的 领域 相关 的 知识 。 

对 于 结合 了 归纳 和 分 析 的 各 种 学 习 方法 ,应 使 用 什么 样 的 准则 来 比较 它们 呢 ? 由 于 学 习 
器 一 般 不 能 预先 知道 领域 理论 和 训练 数据 的 质量 。 我 们 感 兴趣 的 是 能 对 图 12-1 整个 问题 系 
列 都 可 操作 的 一 般 方法 。 这 样 的 学 习 方 法 应 具有 以 下 的 特殊 属性 : 

o 如 果 没 有 领域 理论 , 它 至 少 能 像 纯粹 的 归纳 方法 一 样 有 效 学 习 。 

© 如 果 有 完美 的 领域 理论 , 它 至 少 能 像 纯 粹 的 分 析 方 法 一 样 有 效 学 习 。 

© 如 果 领 域 理论 和 训练 数据 都 不 完美 , 它 应 能 结合 两 者 的 长 处 , 比 单纯 的 归纳 或 分 析 方法 

的 性 能 都 要 好 。 

© 它 应 能 处 理 训练 数据 中 未 知 程 度 的 差错 。 

© 它 应 能 处 理 领域 理论 中 未 知 程度 的 差错 。 

注意 ,这 里 列 出 的 期 望 目标 很 难 达到 。 例 如 , 处 理 训练 数据 中 的 差错 ,即使 在 基于 统计 的 
归纳 方法 中 ,如 果 没 有 某 些 先 验 知识 和 对 差错 分 布 的 假定 ,这 仍 是 值得 研究 的 问题 。 结 合 归纳 
和 分 析 学 习 的 方法 是 当前 活路 的 研究 领域 。 虽 然 上 面 列 出 的 是 我 们 希望 算法 能 达到 的 美好 性 
质 ,目前 没有 算法 能 以 完全 一 般 化 的 方式 满足 所 有 这 些 约束 。 
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下 一 节 对 结合 归纳 -分析 学 习 的 问题 作出 了 更 详细 的 讨论 。 后 面 几 节 描述 了 3 种 不 同 的 
途径 ,结合 近似 的 先 验 知识 和 可 用 数据 来 指导 学 习 器 搜索 合适 的 假设 。 每 种 途径 都 已 在 多 个 
问题 领域 中 显示 出 有 超出 纯 归 纳 方法 的 性 能 。 为 方便 比较 ,我 们 使 用 同一 例子 来 说 明 这 3 种 
12.2 学习 的 归纳 -~ 分 析 途 径 
12.2.1 学 习 问 题 


总 而 言 之 ,本 章 考虑 的 学 习 问 题 为 : 


BA: 

e 一 个 训练 样 例 集合 D ,可 能 包含 差错 
e 一 个 领域 理论 B, 可 能 包含 差错 

© 候选 假设 的 空间 H 


求解 : 

© 一 个 最 好 地 拟 合 训练 样 例 和 领域 理论 的 假设 

“最 好 地 拟 合 训练 样 例 和 领域 理论 "这 句 话 确切 含义 是 什么 ? 或 者 说 ,是 否 会 选择 一 个 拟 
合 数据 程度 较 好 而 拟 合理 论 较 差 的 假设 ,或 反之 ? 为 了 更 精确 起 见 ,需要 定义 对 应 数据 和 对 应 
于 领域 理论 的 假设 错误 率 度量 ,然后 用 这 些 错 误 率 来 表示 这 个 问题 。 回 忆 第 5 章 中 errorp(4) 
定义 为 D 中 被 误 分 类 的 样 例 所 占 比 例 。 可 定义 h 关于 领域 理论 B 的 错误 率 errors(h) 为 ， 
h 与 B 在 分 类 一 个 随机 抽取 实例 时 不 一 致 的 概率 。 接 下 来 就 可 尝试 用 这 些 错 误 率 的 形式 刻画 
所 希望 的 输出 假设 。 例 如 ,我 们 可 以 要 求 假设 使 上 述 错误 率 的 某 种 综合 度量 最 小 化 ,如 : 


argmin kp errorp(h) + kgerrorg(h) 


虽然 粗 看 起 来 这 很 合理 ， 但 还 不 清楚 怎样 确定 kp 和 ks 的 值 来 指定 拟 合 数据 和 拟 合理 论 
两 者 的 相对 重要 程度 。 如 果 有 非常 差 的 理论 , 却 有 大 量 可 靠 数据 , 最 好 使 errorp(h) 的 权 值 更 
大 。 如 果 有 很 好 的 理论 ,而 数据 样本 很 小 且 存 在 大 量 曲 声 ,把 errors(h) 的 权 值 增 大 会 得 到 最 
好 的 结果 。 当 然 如 果 学 习 器 预先 不 知道 领域 理论 和 训练 数据 的 质量 , 它 就 不 清楚 该 怎样 为 这 
两 部 分 错误 率 加 权 。 

怎样 确定 先 验 知识 和 数据 权 值 的 一 种 解决 方法 是 使 用 贝 叶 斯 的 观点 。 回 忆 一 下 第 6 章 ， 
贝 叶 斯 定律 描述 了 怎样 计算 给 定 训练 数据 D 时 假设 h 的 后 验 概率 P(h1D)。 确 切 地 讲 , 贝 叶 
斯 定律 基于 观察 到 的 数据 D 以 及 先 验 知识 计算 后 验 概率 ,以 PCR) PDA P(Dih) 的 形式 
表示 。 因 此 我 们 可 把 P(h)、P(D) 和 P(D14h) 看 作 是 某 种 形式 的 背景 知识 或 领域 理论 ,而 且 
可 把 贝 叶 斯 理论 看 成 一 种 为 领域 理论 加 权 的 方法 , 它 与 观察 到 的 数据 D 一 起 ,赋予 h 的 后 验 
概率 为 P( 瑚 1)。 按 照 贝 叶 斯 的 观点 ,所 选择 的 假设 应 为 后 验 概率 中 最 大 的 一 个 ,并 且 贝 叶 斯 
公式 提供 了 为 此 先 验 知识 和 观察 到 数据 的 贡献 加 权 的 良好 方法 。 遗 伪 的 是 , 贝 叶 斯 公式 隐 含 
假定 拥有 关于 P(h)、P(D) 和 P(DI1h) 概 率 分 布 的 完美 的 知识 。 当 这 些 量 只 是 近似 已 知 时 ， 
单独 的 贝 叶 斯 公式 没有 规定 如 何 将 其 与 观察 数据 结合 起 来 (在 此 情况 下 ,一 种 方法 是 假定 有 P 
(h) PCD) Al P(DIhk) 之 上 的 先 验 概率 分 布 ,然后 计算 后 验 概率 P(h1D) 的 期 望 值 。 然 而 这 
BORA P(h)、P(D) 和 P(DI4h) 之 上 的 先 验 分 布 方 面 的 附加 知识 ,因此 并 没有 真正 解决 此 问 


题 )。 








242 ae ee 





当 考虑 特定 算法 时 ,我 们 会 再 次 考虑 “最 佳 " 拟 合 假设 和 数据 是 什么 含义 。 现 在 ,我 们 只 是 
简单 地 说 ,学 习 问 题 是 为 了 使 假设 在 数据 和 领域 理论 上 的 错误 率 的 某 种 综合 度量 最 小 化 。 


12.2.2 假设 空间 搜索 


如 何 将 领域 理论 和 训练 数据 最 好 地 结合 起 来 ,从 而 限制 可 接受 假设 的 搜索 呢 ? 这 在 机 器 
学 习 中 仍 是 有 待 研究 的 问题 。 本 章 考 察 了 几 种 已 提出 的 方法 ,其 中 许多 要 对 已 讨论 过 的 归纳 
方法 (如 , 反 向 传播 ,FOIL) 进 行 扩展 。 

为 了 解 可 能 途径 的 范围 ,一 种 办 法 是 回 到 前 面 对 学 习 的 看 法 ,即将 其 看 作 是 一 种 搜索 多 个 
可 选 假 设 空间 的 任务 。 为 了 将 大 多 数学 习 任 务 刻画 为 搜索 算法 ,需要 定义 待 搜索 的 假设 空间 
日 ,搜索 的 开始 点 为 初始 假设 ho, 定 义 单个 搜索 步 的 搜索 算 子 集合 0 以 及 指定 搜索 目标 的 判 
据 G。 本 章 探 索 了 3 种 方法 ,这 3 种 方法 用 先 验 知识 来 改变 纯 归纳 方法 执行 的 搜索 。 

9 使 用 先 验 知识 推导 出 搜索 起 步 的 初始 假设 :用 这 种 方法 ,领域 理论 B 被 用 于 建立 一 个 

与 8B 一致 的 初始 假设 ho。 然 后 以 这 个 初始 假设 ho 为 起 点 应 用 标准 归纳 方法 。 例 如 ,下 
面 描述 的 KBANN 系统 是 按 这 种 方法 学 习 人 工 神经 网 络 的 。 它 使 用 先 验 知识 来 设计 初 
始 网 络 的 互联 结构 和 权 值 ,这样 ,此 初始 网 络 与 给 定 的 领域 理论 完全 一 致 。 然 后 此 初始 
网 络 假设 用 反 向 传播 算法 和 训练 数据 被 归纳 地 精 化 。 从 一 个 与 领域 理论 一 致 的 假设 开 
始 搜 索 ,使 得 最 终 输 出 假设 更 有 可 能 拟 合 此 理论 。 

e@ 使 用 先 验 知识 来 改变 假设 空间 搜索 的 目标 :在 这 种 方法 中 ,目标 判 据 6 被 修改 ,以 要 求 
输出 假设 拟 合 训练 样 例 的 同时 也 拟 合 领域 理论 。 例 如 ,下 面 描述 的 EBNN 系统 以 这 种 
方法 学 习 神 经 网 络 。 神 经 网 络 的 归纳 学 习 执行 梯度 下 降 来 使 网 络 在 训练 数据 上 的 误差 
平方 最 小 化 ,而 EBNN 中 执行 梯度 下 降 来 优化 另 一 个 判 据 。 这 个 判 据 包含 一 个 附加 
项 , 它 衡量 了 学 习 到 的 网 络 相 对 于 领域 理论 的 误差 。 

o 使 用 先 验 知识 改变 可 用 的 搜索 步 :在 此 方法 中 ,领域 理论 修改 了 搜索 算 子 集合 0。 例 
如 ,下 面 描述 的 FOCL 系统 以 这 种 方法 学 习 Horn 子 句 集 。 它 基于 归纳 系统 FOIL。 
FOIL 在 可 能 的 Horn 子 句 空间 上 执行 仿 禁 搜索 ,每 步 通过 加 入 一 个 新 文字 来 修正 当前 
假设 。FOCL 在 修正 假设 中 使 用 领域 理论 来 扩展 可 用 的 文字 集合 。 它 允许 在 单个 搜索 
步 中 加 入 多 个 文字 ,只 要 它们 能 由 领域 理论 保证 其 正确 性 。 以 这 种 方式 , FOCL 在 假设 
空间 中 移动 一 步 相当 于 使 用 原来 的 算法 移动 多 步 。 这 些 “ 宏 移动 (macro-moves) 可 极 
大 地 改变 搜索 的 方向 ,这 样 ,最 终 的 与 数据 一 致 的 假设 与 只 使 用 归纳 搜索 步 时 找到 的 假 
设 不 同 。 

下 面 几 节 依次 介绍 了 这 几 种 方法 。 


12.3 使 用 先 验 知识 得 到 初始 假设 


一 种 使 用 先 验 知识 的 方法 是 ,将 假设 初始 化 为 完美 拟 合 领域 理论 ,然后 按照 需要 归纳 地 精 
化 此 初始 假设 以 拟 合 训练 数据 。 这 种 方法 被 用 于 KBANN( Knowledge-Based Artificial Neural 
Network ,基于 知识 的 人 工 神 经 网 络 ) 算 法 中 。 在 KBANN 中 ,首先 建立 了 一 个 初始 的 网 络 。 
对 每 个 可 能 实例 ,网 络 赋予 它 的 分 类 等 于 领域 理论 赋予 的 分 类 。 然 后 应 用 反 向 传播 算法 来 调 


整 初始 网 络 ,使 其 拟 合 训练 样 例 。 
很 容易 看 出 ,该 技术 的 动机 在 于 :如 果 领 域 理论 是 正确 的 ,初始 假设 将 正确 分 类 所 有 训练 
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样 例 ,而 无 需 再 修正 。 然 而 ,如 果 初 始 假设 不 能 完美 地 分 类 训练 样 例 ,那么 它 需 要 被 归纳 精 化 ， 
以 改进 它 在 训练 样 例 上 的 拟 合 度 。 回 忆 在 纯粹 归纳 的 反 向 传播 算法 中 , 权 值 一 般 被 初始 化 为 
小 的 随机 值 。KBANN 背后 的 直观 含义 在 于 ,即使 领域 理论 是 近似 正确 的 ,将 网 络 初始 化 为 拟 
合 领 域 理论 , 比 初始 化 为 随机 权 值 有 更 好 的 近似 开端 。 这 应 该 可 以 得 到 泛 化 精度 更 高 的 最 终 
假设 。 

这 种 使 用 领域 理论 来 初始 化 假设 的 途径 已 经 被 许多 研究 者 探索 过 。 包 括 Shavlik & Tow- 
ell (1989) .Towell & Shavlik (1994), Fu (1989，1993) 和 Pratt (1993a, 1993b)。 我 们 将 使 用 
Shavlik & Towell(1989) 描 述 的 KBANN 算法 来 例 示 这 一 途径 。 


12.3.1 KBANN 算法 


KBANN 运用 领域 理论 来 初始 化 假设 。 其 中 假定 领域 理论 用 一 组 命题 形式 的 非 递 归 的 
Horn 子 句 来 表示 。 命 题 形式 Horn 子 句 表示 它 不 包含 变量 。KBANN 的 输入 和 输出 如 下 : 


CA: 
e 一 组 训练 样 例 
o 由 非 递 归 命题 型 Horn 子 句 组 成 的 领域 理论 


求解 : 

© 一 个 拟 合 训练 样 例 的 被 领域 理论 偏 置 的 人 工 神经 网 络 

KBANN 算法 包含 两 个 阶段 ,首先 它 创 建 一 个 完美 拟 合 领域 理论 的 人 工 神经 网 络 , 然 后 使 
用 反 向 传播 算法 来 精 化 初始 网 络 以 拟 合 训练 样 例 。 算 法 的 细节 (包括 创建 初始 网 络 的 算法 ) 在 
表 12-2 中 列 出 ,并 将 在 12.3.2 节 说 明 。 


表 12-2 KBANN 算 法 


KBANN( Domain _ Theory, Training _ Examples) 
Domain _ Theory: 非 递归 命题 型 Hom 子 句 集合 
Training _ Examples: ARMIA < input, output > 对 的 集合 
分 析 步 :创建 一 个 等 价 于 领域 理论 的 初始 网 络 
1. 对 每 个 实例 属性 创建 一 个 网 络 输入 
2. 对 Domain _ Theory 的 每 个 Horn 子 句 ,创建 如 下 的 网 络 单元 
@ 连接 此 单元 的 输入 到 此 子 句 的 先行 词 测试 的 属性 
@ 对 子 句 的 每 个 非 负 先行 词 ,赋予 权 值 W 给 对 应 的 sigmoid 单元 输入 
全 对 子 名 的 每 个 负 先行 词 ,赋予 权 值 - W 给 对 应 的 sigmoid 单元 输入 
O 设置 此 单元 的 出 值 wo 为 -(n -0.5) 四 ,其 中 中 为 子 句 的 非 负 先 行 词 的 数目 
3. 在 网 络 单元 之 间 增 加 附加 的 连接 ,连接 深度 为 i 的 每 个 网 络 单元 到 深度 为 i+ 1 的 所 有 网 络 单元 的 输入 层 
上 。 赋 予 这 些 附 加 的 连接 为 接近 0 的 随机 权 值 
归纳 步 : 精 化 此 初始 网 络 
4. 应 用 反 向 传播 算法 来 调整 初始 网 络 权 值 以 拟 合 Training _ Examples 


注 ; 领域 理论 被 转换 为 等 效 的 神经 网 络 (步骤 1 ~ 3), 然 后 用 反 向 传播 算法 归纳 精 化 (第 4 步 )。 肌 常量 的 典型 什 
为 0.4。 


12.3.2 举例 
为 例 示 KBANN 的 操作 ,考虑 表 12-3 列 出 的 一 个 简单 的 学 习 间 题 , 它 取 自 于 Towel & 
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Shavlik(1989) 并 略 做 改动 。 这 里 每 个 实例 代表 一 物理 对 象 。 描 述 了 它 的 物理 材料 、 它 的 轻重 
等 等 。 任 务 是 学 习 定 义 在 这 物理 对 象 上 的 目标 概念 Cupo R 12-3 描述 了 Cup 目标 概念 的 训 
练 样 例 和 领域 理论 。 注 意 ,领域 理论 中 定义 Cup A—* Stable, Liftable 以 及 Open Vessel 的 对 
象 。 领 域 理论 还 把 这 3 个 属性 定义 为 更 基本 的 属性 , 即 描述 了 此 实例 的 原子 的 、 可 操作 的 属 
性 。 注 意 领域 理论 并 不 是 与 训练 样 例 完 全 一 致 的 。 例 如 ,领域 理论 错误 地 分 类 第 2 和 第 3 个 
训练 样 例 为 反例 。 不 过 ,领域 理论 形成 了 目标 概念 的 有 效 近 似 。KBANN 使 用 领域 理论 和 训 
练 样 例 一 起 学 习 目 标 概 念 ,可 以 比 单独 使 用 其 中 一 种 更 精确 。 


表 12-3 Qip 学 习 任务 


领域 理论 ; 
Cup< Stable, Liftable, Open Vessel 
Stable- BottomIsFlat 
Liftable<- Graspable, Light 
Graspable<— HasHandle 
Open Vessel<- HasConcavity, ConcavityPointsUp 


训练 样 例 ， 
Non-Cups 
BottomlsF lat 
ConcavityPointsUp 
Expensive 


Fragile 


HandleOnTop 
HandleOnSide 
HasConcavity 
HasHandle 

Light 

MadeO fCeramic 
MadeOfPaper 
MadeOfStyrofoam 





注 ; 表 中 列 出 了 目标 概念 Cup 的 一 组 近似 领域 理论 和 一 组 训练 样 例 。 


在 KBANN 算法 的 第 一 阶段 (算法 中 的 1 ~ 3 步 ) ,构建 了 一 个 与 领域 理论 一 致 的 初始 网 
络 。 例 如 ,从 Cup 的 领域 理论 中 构建 的 网 络 描绘 于 图 12-2 中 。 一 般 说 来 ,网 络 的 构建 是 通过 
对 领域 理论 中 每 一 个 Horn 子 句 建立 一 个 sigmoid 单元 。KBANN 遵从 惯例 ,sigmoid 输出 值 大 
于 0.5 时 被 解释 为 真 ,小 于 0.5 则 为 假 。 因 此 每 个 单元 的 构建 方法 为 : 当 对 应 的 Horn FAF 
在 时 ,单元 的 输出 就 大 于 0.5。 对 该 Horn 子 句 的 每 个 先行 词 ,建立 其 对 应 的 sigmoid 单元 作为 
输入 。 然 后 设置 sigmoid 单元 的 权 值 ,使 其 计算 得 出 其 输入 的 逻辑 与 。 确 切 地 讲 , 对 于 每 个 对 
应 于 非 负 先行 词 的 输入 , 权 值 被 设置 为 某 正 常量 办 。 对 每 个 对 应 于 负 先 行 词 的 输入 , 权 值 设 
为 - Wo BCR wo 设 为 - (n -0.5) 多 ,其 中 为 非 负 先行 词 的 数目 。 当 单元 输 人 值 
为 1 或 0 时 ,这 保证 了 当 且 仅 当 所 有 的 子 名 先行 词 满足 时 ,输入 的 加 权 和 加 上 wo 为 正 ( 而 且 








RIZE HARIH FIHA 245 








此 sigmoid 的 输出 大 于 0.5)。 注 意 ,对 于 sigmoid 单元 ,第 二 层 及 以 后 的 层 中 单元 输入 不 一 定 
为 1 或 0, 上 面 的 命题 无 法 应 用 于 此 。 然 而 如 果 为 W 选择 足够 大 的 值 ,此 KBANN 算法 可 以 
对 任意 深度 的 网 络 进行 领域 理论 编码 。Towell & Shavlik(1994) 在 多 数 实验 中 使 用 W = 4.0. 


Stable 


OpenVessel 





这 个 网 络 在 KBANN 算法 的 第 一 阶段 创建 出 来 , 它 产生 的 输出 分 类 等 于 给 定 的 领域 理论 中 的 子 句 做 的 分 类 。 粗 线 表 
示 权 值 为 W 的 连接 ,对 应 领域 理论 中 的 子 句 先行 词 。 细 线 表示 权 值 近似 为 0 的 连接 


图 12-2 等 价 于 领域 理论 的 神经 网 络 


每 个 sigmoid 单元 输入 被 连接 到 适当 的 网 络 输入 或 另 一 个 sigmoid 单元 的 输出 ,以 反映 领 
域 理论 中 对 应 属性 的 依赖 关系 图 。 最 后 一 步 ,又 附加 了 许多 输入 到 每 个 阔 值 单元 ,它们 的 权 值 
设置 近似 为 0。 这 些 附 加 连接 的 作用 是 允许 网 络 能 归纳 学 习 到 的 内 容 可 超出 领域 理论 中 提出 
的 依赖 关系 。 图 12-2 中 的 粗 实 线 表 明 权 值 为 W 的 单元 输入 , 而 细 线 表明 初始 权 值 约 为 0 的 
连接 。 很 容易 验证 对 于 足够 大 的 W 值 ,此 网 络 输出 值 等 于 领域 理论 的 预测 。 

KBANN 的 第 二 阶段 ( 表 12-2 中 算法 的 第 4 步 ) 使 用 训练 样 例 和 反 向 传播 算法 来 精 化 初 
始 网 络 权 值 。 当 然 ,如果 领 域 理论 和 训练 样 例 不 包含 差错 ,初始 的 网 络 就 已 经 拟 合 训练 数据 
了 。 然 而 在 Cup 例子 中 ,领域 理论 与 训练 数据 不 一 致 ,所 以 此 步骤 会 改变 初始 网 络 的 权 值 。 
得 到 的 训练 过 的 网 络 显示 在 图 12-3 中 , 粗 实 线 表明 最 大 的 正 权 值 , 粗 虚线 表明 最 大 负 权 值 , 细 
线 表明 可 忽略 的 权 值 。 虽 然 初 始 网 络 误 分 类 了 表 12-3 中 几 个 训练 样 例 ,但 图 12-3 中 精 化 的 
网 络 能 完美 地 分 类 所 有 训练 样 例 。 

有 必要 比较 一 下 最 终归 纳 精 化 的 网 络 权 值 和 领域 理论 导出 的 初始 权 值 。 如 图 12-3 所 示 ， 
在 归纳 步 中 发 现 了 全 新 的 依赖 关系 ,包括 Liftable 单元 对 MadeofStyrofoam 的 依赖 关系 。 必 
须 牢记 ,虽然 标 有 Liftable 的 单元 最 初 由 它 的 Horn 子 句 定义 ,但 后 来 由 反 向 传播 修改 的 权 值 
已 经 完全 改变 了 此 隐藏 单元 的 意义 。 在 网 络 被 训练 过 后 ,该 单元 可 能 有 了 与 初始 的 Liftable 
记号 无 关 的 非常 不 同 的 意义 。 


12.3.3 说 明 


概括 地 讲 ,KBANN 用 分 析 的 方式 创建 了 等 价 于 给 定 领域 理论 的 网 络 ,然后 归纳 地 精 化 此 
初始 假设 以 更 好 地 拟 合 训练 数 据 。 在 此 过 程 中 , 它 为 了 改变 领域 理论 和 训练 数据 不 一 致 的 情 
况 而 修改 网 络 权 值 。 i 














…… WARRE 


KBANN 使 用 训练 样 例 来 修改 从 领域 理论 中 导出 的 网 络 权 值 。 注 意 其 中 新 产生 的 Liftable 对 MadeOfStyrofoam 
和 HandleOnTop 的 依赖 性 


图 12-3 ”对 初始 网 络 归纳 精 化 后 的 结果 


与 纯 归纳 的 反 向 传播 ( 它 开始 于 随机 的 权 值 ) 相 比 ,KBANN 的 好 处 在 于 , 它 在 给 定 近似 正 
确 领域 理论 时 ,能 够 比 反 向 传播 有 更 高 的 泛 化 精度 ,特别 是 在 训练 数据 稀少 时 。 在 几 种 实际 系 
统 中 ,KBANN 和 其 他 初始 化 假设 的 途径 已 显示 出 优 于 纯 归 纳 的 系统 。 例 如 , Towell et al. 
(1990) 描 述 了 将 KBANN 应 用 于 分 子 遗传 问题 ,任务 是 学 习 识 别称 为 激发 区 域 (promoter re- 
gion) 的 DNA 片断 , 它 影 响 基因 的 活性 。 在 此 实验 中 ,KBANN 的 领域 理论 从 一 个 分 析 遗 传 学 
家 那里 获取 ,而 激发 区 域 的 训练 样 例 中 包含 53 个 正 例 和 53 个 反例 。 性 能 评估 使 用 了 “ 留 一 
法 ”(leave-one-out) ,系统 运行 106 次 。 每 次 循环 中 KBANN 用 105 个 样 例 训 练 ,并 在 剩余 的 样 
例 上 测试 。 这 106 次 实验 的 结果 被 积聚 起 来 提供 对 真实 错误 率 的 估计 。KBANN 错误 率 为 4/ 
106, 衔 标准 的 反 向 传播 错误 率 为 8/106。KBANN 的 一 个 变种 由 Fu(1993) 实 现 , 它 报告 在 同 
样 数据 上 的 错误 率 为 2/106。 因 此 , 先 验 知识 在 这 些 实验 中 很 大 程度 地 减 小 了 错误 率 。 此 实 
验 的 训练 数据 可 以 从 万 维 网 址 http://www. ics. uci. edu/ ~ mlearn/ MLReository. html 上 得 
到 。 

Fu(1993) 和 Towell et al.(1990) 都 报告 :从 最 终 训 练 过 的 网 络 中 抽取 的 Horn 子 句 ,可 提 
供 一 个 能 更 好 拟 合 训练 数据 的 领域 理论 。 虽 然 有 时 可 能 从 学 习 到 的 网 络 权 值 映射 回 一 个 精 化 
的 Horn 子 句 集 ,但 在 一 般 情形 下 这 种 作法 是 有 问题 的 。 因 为 某 些 权 值 设置 没有 直接 对 应 的 
Horn 子 句 。Craven & Shavlik(1994) 和 Craven(1996) 描 述 了 另外 的 方法 从 学 习 过 的 网 络 中 抽 
取 符 号 规则 。 

为 理解 KBANN 的 定义 ,有 必要 考虑 其 中 的 假设 搜索 与 纯 归 纳 的 反 向 传播 算法 中 有 什么 
区 别 。 这 两 种 算法 中 执行 的 假设 空间 搜索 在 图 12-4 中 示意 。 如 其 中 显示 的 ,关键 区 别 在 于 执 
行 权 值 调 节 所 基于 的 初始 假设 。 在 有 多 个 假设 ( 权 值 向 量 ) 能 拟 合 数据 的 情况 下 (这 种 情况 在 
训练 数据 稀少 时 更 可 能 出 现 ) , KBANN 更 有 可 能 收敛 到 这 样 的 假设 , 它 从 训练 数据 中 的 泛 化 
与 领域 理论 的 预测 更 相似 。 另 一 方面 , 反 向 传播 收敛 到 的 特定 假设 更 可 能 是 小 权 值 的 假设 , 它 
大 致 对 应 于 在 训练 样 例 间 平 滑 插值 的 泛 化 偏 置 。 简 要 地 说 , KBANN 使 用 一 个 领域 特定 的 理 
论 来 偏 置 泛 化 ,而 反 向 传播 算法 使 用 一 个 领域 无 关 的 语法 偏 置 (偏向 于 小 的 权 值 )。 注 意 ,在 此 
概述 中 我 们 忽略 了 搜索 中 局 部 极 小 值 的 影响 。 
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假设 空间 


以 同样 程度 所 
合 训练 数据 的 
J we 


把 一 一 反 向 传播 的 
初始 假设 





KBANN 初始 化 网 络 使 其 拟 合 领域 理论 ,而 反 向 传播 将 网 络 初始 化 为 随机 小 权 值 。 然 后 它们 使 用 相同 的 梯度 下 
降 规 则 反复 精 化 权 值 。 当 找到 多 个 能 拟 合 训练 数据 的 假设 时 (如 阴影 区 域 所 示 ) ,KBANN 和 反 向 传播 法 可 能 找 
到 不 一 样 的 假设 ,因为 它们 的 起 点 不 同 

图 12-4 KBANN 中 的 假设 空间 搜索 


KBANN 的 局 限 性 之 一 是 , 它 只 能 使 用 命题 领域 理论 , 即 无 变量 的 Hon 子 句 集 。 如 果 给 
予 很 不 精确 的 领域 理论 ,KBANN 也 可 能 被 误导 ,从 而 其 泛 化 精度 变 得 低 于 反 向 传播 。 不 过 ， 
KBANN 和 相关 算法 确实 在 若干 实际 问题 中 很 有 用 。 

KBANN 是 结合 分 析 和 归纳 学 习 的 初始 化 假设 途径 中 的 一 种 。 这 一 途径 的 其 他 例子 包括 
Fu( 1993), Gallant (1988), Bradshaw et al. (1989), Yang & Bhargava( 1990), Lacher et al. 
(1991)。 这 些 途径 不 同 之 处 在 于 建立 初始 假设 的 实际 使 用 的 技术 、 权 值 调整 的 反 向 传播 的 应 
用 以 及 从 精 化 的 网 络 中 抽取 符号 描述 的 方法 。Pratt(1993a, 1993b) 描 述 的 一 个 初始 化 假设 途 
径 中 , 先 验 知识 是 通过 先前 对 相关 任务 学 习 到 的 神经 网 络 来 提供 的 。 训 练 贝 叶 斯 网 的 值 的 方 
法 ( 见 6.11 节 ) 也 可 被 看 作 是 用 先 验 知识 来 初始 化 假设 。 这 里 先 验 知识 对 应 于 一 组 条 件 独立 
性 假定 , 它 确 定 了 贝 叶 斯 网 的 图 结构 ,然后 其 条 件 概率 表 从 训练 数据 中 归纳 得 到 。 


12.4 使 用 先 验 知识 改变 搜索 目标 


上 面 的 途径 由 一 个 完美 拟 合 领域 理论 的 假设 开始 梯度 下 降 搜索 ,然后 在 需要 时 改变 此 假 
设 以 最 大 程度 地 拟 合 训练 数据 。 使 用 先 验 知识 的 另 一 方法 是 将 它 合并 到 梯度 下 降 中 需 最 小 化 
的 误差 判 据 , 这 样 网 络 需要 拟 合 的 是 训练 数据 和 领域 理论 的 组 合 函 数 。 确 切 地 讲 , 我 们 考虑 的 
先 验 知识 的 形式 是 目标 函数 的 某 种 已 知 的 导出 式 。 一 些 类 型 的 先 验 知 识 可 以 很 自然 地 用 此 形 
式 表示 。 例 如 ,在 训练 一 个 神经 网 络 以 识别 手写 字符 时 ,我 们 可 以 指定 目标 函数 的 某 种 导数 ， 
以 表示 这 种 先 验 知 识 ;“ 字 符 的 确认 独立 于 图 像 的 微小 平移 和 旋转 。 

下 面 描述 的 TANGENTPROoP 算法 训练 神经 网 络 ,使 其 同时 拟 合 训练 值 和 训练 导数 。12.4.4 
节 说 明了 怎样 用 类 似 于 12.3 节 使 用 的 Cup 例子 中 的 方法 从 领域 理论 中 获得 这 些 训练 导数 。 
确切 地 讲 , 它 讨论 了 EBNN 算法 怎样 构造 单独 样 例 的 解释 , 以 抽取 出 训练 导数 来 供 Tan- 
CENTPROP 使 用 。TANCENTPRoP 和 EBNN 已 在 多 个 领域 中 显示 出 优 于 纯 归 纳 方法 的 性 能 , 包 
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括 字 符 和 物体 识别 以 及 机 器 人 感知 和 控制 任务 中 。 
12.4.1 TancentProp 算法 


TANGENTPROP (Simard et al. 1992) 接 受 的 领域 知识 被 表示 为 对 应 于 其 输入 变换 的 目标 函 
数 的 导数 。 考 虑 一 个 学 习 任务 ,包含 一 个 实例 空间 奈 和 目标 函数 /。 至 此 我 们 所 作 的 假定 中 
每 个 训练 样 例 形式 为 (xi, f(x;)), 它 描述 了 某 实例 x; 和 其 训练 值 F( x;)。TANGENTPROP 算法 
还 假定 提供 了 目标 函数 的 不 同 的 训练 导数 (training derivative)。 例 如 ,如 果 每 个 实例 x, 描述 


为 一 个 实数 ,那么 每 个 训练 样 例 形 式 可 能 为 Cx:, (x;) E » pf) .表示 目标 


函数 在 点 x = x; 上 对 x 的 导数 。 

为 了 从 直觉 上 理解 在 学 习 中 不 仅 提供 训练 值 也 提供 训练 导数 的 好 处 ,考虑 一 个 简单 的 任 
务 ,如 图 12-5 所 示 。 最 左边 的 图 形 显 示 待 学 习 的 目标 函数 f, 它 基于 所 显示 的 3 个 训练 样 例 
Cxi, f(x1)), (42, fl x2) M x3, (xs3))。 有 了 这 3 个 样 例 , 反 向 传播 算法 可 得 到 一 个 平滑 
阴 数 假设 ,如 中 间 图 显示 的 函数 g。 最 右边 的 图 显示 了 提供 训练 导数 (或 斜率 ) 作 为 每 个 训练 


样 例 的 附加 信息 (如 (zi,7( xi) ,2 全 | 》) 的 效果 。 通 过 拟 合 训练 值 (x) 同时 拟 合 这 些 导 








pOL) ,学 习 器 可 以 更 好 地 从 稀 玖 训练 数据 中 正确 汉化 。 概 括 地 说 ,包含 训练 导数 的 效 


果 是 为 了 克服 反 向 传播 中 的 语法 归纳 偏 置 ( 它 偏好 各 点 间 的 平滑 插值 ) ,将 其 替换 为 所 希望 的 
导数 的 显 式 输入 信息 。 结 果 假设 h 显示 在 最 右边 的 图 中 ， 它 提供 了 对 真实 目标 函数 f 的 更 精 
确 估计 。 





“ Xa % x 


x 


F /为 目标 函数 , 它 的 三 个 样 例 < x1, fla) > ,< 22, fla.) > 和 < a3, f(x3) > BR. ETRE, SUR 
能 生成 假设 g。 如 果 导 数 也 已 知 ,学 习 器 可 以 泛 化 到 更 精确 的 


图 12-5 用 TANcENrPRo 拟 合 值 和 导数 


在 上 述 例子 中 ,我 们 只 考虑 了 简单 类 型 的 目标 函数 导数 。 实 际 上 , TancentProp 可 接受 
对 应 于 输入 x 的 各 种 变换 的 训练 导数 。 例 如 ,考虑 学 习 识 别 手写 字符 的 任务 。 确 切 地 讲 , 假 
定 输入 x 对 应 于 包含 单个 手写 字符 的 图 像 ,而 任务 是 正确 分 类 此 字符 。 在 此 任务 中 ,我 们 可 
能 希望 告诉 学 习 器 “目标 函数 对 于 图 像 中 字符 的 微小 旋转 不 受 影响 ”。 为 输入 此 先 验 知识 给 学 
习 器 ,我 们 首先 定义 一 个 变换 sla, x), CWEIR x 旋转 a 度 。 现 在 我 们 可 把 旋转 不 变性 的 断 
言 表示 为 :对 每 个 训练 实例 x; ,目标 函数 对 应 此 变换 的 导数 为 0( 即 旋转 输入 图 像 不 改变 目标 
函数 的 值 ) 。 换 言 之 ,我 们 可 对 每 个 训练 实例 x; 断言 下 面 的 训练 导数 : 

af (sla, x; Do 
da 
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其 中 , f 为 目标 函数 ,而 sla, x;) 为 应 用 此 变换 s 到 图 像 x; 得 到 的 图 像 。 

这 样 的 训练 导数 在 TancentProp 中 怎样 被 用 于 约束 神经 网 络 的 权 值 ? 在 TANGENTPRoP 
中 这 些 训 练 导数 被 合并 到 梯度 下 降 中 需 最 小 化 的 误差 函数 中 , 回忆 第 4 章 中 反 向 传播 算法 执 
行 梯度 下 降 试图 使 误差 平方 和 最 小 化 : 

E = 2 (f(xi) - Fx)? 

其 中 ,x; 代表 第 i 个 训练 实例 ,f 代表 真实 目标 函数 ,而 广 代表 学 习 到 的 神经 网 络 表示 的 
函数 。 

在 TANGENTPRop 中 ,误差 函数 中 新 增 了 一 项 以 惩罚 训练 导数 和 学 习 到 的 神经 网 络 函 数 的 
实际 导数 了 之 间 的 分 层 。 一 般 情况 下 ,TANGENTPRoP 可 接受 多 个 变换 (例如 ,我 们 希望 断言 旋 
转 不 变性 ,同时 断言 字符 识别 中 的 平移 不 变性 ) ,每 个 变换 形式 必须 为 w%(a，x ) ,其 中 a 为 连 
续 参 数 ,而 3; 可 微 ,而 且 s,(0, x) = x( 例 如 ,对 于 0 度 的 旋转 ， 阔 数 即 为 恒 等 函 数 )。 对 每 个 这 
样 的 变换 5(c，x ) ,TANGENTPRoP 考虑 指定 的 训练 导数 和 学 习 到 的 神经 网 络 的 实际 导数 间 的 
误差 平方 。 修 改 后 的 误差 函数 为 : 

B= D| P - Hay? + D(A) Aone)" ] 02. 


其 中 ,jp 为 用 户 提供 的 常量 ,以 确定 拟 合 训练 数据 和 拟 合 训练 导数 之 间 的 相对 重要 性 。 注 
意 已 定义 中 的 第 一 项 为 原来 的 训练 数据 同 网 络 之 间 的 误差 平方 ,而 第 二 项 为 训练 导数 同 网 络 
之 间 的 误差 平方 。 

Simard et al. (1992) 给 出 了 使 此 扩展 的 误差 函数 最 小 化 的 梯度 下 降 规 则 。 它 可 由 类 似 于 
第 4 章 中 反 向 传播 规则 中 的 方法 进行 推导 。 


12.4.2 举例 


Simard et a.〈1992) 握 供 了 TancentPror 的 泛 化 精度 同 纯 归纳 反 向 传播 之 间 的 比较 结果 , 针 
对 的 问题 为 手写 字符 识别 。 更 确切 地 讲 , 这 里 的 任务 是 为 单个 数字 0 到 9 的 图 像 做 标注 。 在 一 
个 实验 中 ,TANGENTPRop 和 反 向 传播 都 用 不 同 大 小 的 训练 集合 进行 训练 ,然后 基于 它们 在 独立 的 
160 个 样 例 的 测试 集合 上 评估 人 性能。 给 予 TANGENTPRo 的 先 验 知识 为 :数字 的 分 类 不 因 图 像 的 
水 平和 垂直 平移 而 改变 ( 即 此 目标 函数 对 应 于 这 些 变换 的 导数 为 0)。 结 果 显 示 在 表 12-4 中 ,证 
明了 TANGENTPRop 使 用 先 验 知识 的 泛 化 精度 确实 高 于 纯 反 向 传播 算法 。 


12-4 ”针对 手写 数字 识别 问题 的 TANGENrPROP 和 反 向 传播 的 泛 化 精度 


在 测试 集 上 的 错误 率 百分比 


训练 集合 大 小 





注 : TANGENTPROP 泛 化 精度 更 高 ,因为 它 有 先 验 知识 :数字 的 确定 有 平移 不 变性 。 这 些 结果 来 自 于 Simard et al. (1992). 
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12.4.3 说 明 


概括 地 说 ,TANGENTPRoP 使 用 的 先 验 知识 形式 为 目标 函数 对 应 其 输入 变换 的 所 希望 的 导 
数 。 它 通过 使 一 个 指标 函数 最 小 化 来 结合 先 验 知识 和 观察 到 的 训练 数据 ,这 个 指标 函数 同时 
度量 了 网 络 对 应 训练 样 例 值 的 误差 ( 拟 合 数 据 ) 和 网 络 对 应 于 导数 的 误差 ( 拟 合 先 验 知识 )。j 
的 值 决定 了 网 络 在 整个 误差 中 拟 合 这 两 部 分 的 程度 。 算 法 的 行为 对 值 敏感 , 它 是 由 设计 者 
选择 的 。 

虽然 TANGENTPROP 成 功 地 结合 了 先 验 知识 和 训练 数据 以 指导 神经 网 络 学 习 , 但 它 对 于 先 
验 知 识 中 的 错误 健壮 性 不 强 。 当 先 验 知识 不 正确 时 , 即 输 入 到 学 习 器 的 训练 导数 不 能 正确 反 
映 真实 目标 函数 的 导数 时 ,算法 将 试图 拟 合 不 正确 的 导数 ,从 而 导致 泛 化 精度 不 如 完全 忽略 先 
验 知识 使 用 纯 反 向 传播 算法 的 精度 。 如 果 我 们 预先 知道 训练 导数 中 的 错误 出 现 程度 ,我们 可 
用 这 一 信息 选择 常量 ,以 确定 拟 合 训练 值 和 拟 合 训练 导数 的 相对 重要 程度 。 然 而 ,这 一 信息 
不 太 可 能 预先 知道 。 在 下 一 节 我 们 讨论 了 EBNN 算法 , 它 可 自动 根据 example-by-example 的 
基础 选择 y 的 值 ,以 解决 不 正确 的 先 验 知识 的 问题 。 

有 必要 比较 一 下 TANGENTPROP、KBANN 和 反 向 传播 执行 的 假设 空间 ( 权 值 空间 ) 的 搜索 方 
法 。TANGENTPROP 结合 先 验 知识 ,通过 改变 由 梯度 下 降 最 小 化 的 指标 (objective) 函数 来 影响 假设 
搜索 。 它 相当 于 改变 了 假设 空间 搜索 的 目标 ,如 图 12-6 所 示 。 如 有 反 向 传播 算法 一 样 (但 与 
KBANN 不 同 ), TANGENTProp 开始 于 随机 小 权 值 的 初始 网 络 。 然 而 , 它 的 梯度 和 训练 法 则 产生 的 
权 值 更 新 与 反 向 传播 的 不 同 ,从 而 得 到 不 同 的 最 终 假 设 。 如 图 中 所 示 , 使 TANcENTPRoP 的 指标 
最 小 化 的 假设 集合 不 同 于 使 反 向 传播 的 指标 最 小 化 的 假设 集合 。 重 要 的 是 ,如 果 训 练 样 例 和 先 
验 知 识 都 正确 ,并 且 目 标 函 数 可 用 ANN 精确 表示 ,那么 满足 TANcENTPRop 指标 的 权 向 量 集合 将 
为 满足 反 向 传播 指标 的 权 向 量 集合 的 子 集 。 这 两 个 最 终 假 设 的 集合 的 差别 为 一 些 不 正确 的 假 
设 ,它们 会 被 反 向 传播 考虑 ,但 会 因为 先 验 知识 而 被 TancentProp 剔除 掉 。 
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TANGENTPROP 搜 索 





TANGENTPRop 将 网 络 初始 化 为 随机 小 权 值 ,如 反 向 传播 中 一 样 。 然 而 , 它 使 用 不 同 的 误差 函数 来 引导 梯度 下 降 搜索 。 
TANGENTPROP 中 使 用 的 误差 包括 了 预测 训练 值 的 误差 ,也 包括 预测 由 先 验 知识 提供 的 训练 导数 的 误差 


图 12-6 TANGENTPROP 中 的 假设 空间 搜索 








BI2F BARIH EI AA 251 








注意 ,对 目标 函数 的 训练 导数 拟 合 的 另 一 种 方法 是 ,简单 地 将 观察 到 的 训练 样 例 附 近 的 附 
加 训练 样 例 综合 起 来 ,使 用 已 知 的 训练 导数 来 估计 这 些 附近 的 实例 的 训练 值 。 例 如 ,在 上 面 的 
字符 识别 任务 中 ,可 以 取 一 个 训练 图 像 ,对 其 少量 的 平移 ,然后 断言 平移 后 的 图 像 与 原来 的 样 
例 属于 同一 类 。 可 以 期 望 使 用 反 向 传播 和 这 些 综合 的 样 例 ,得 到 相似 于 TANcENTPRop 中 使 用 
原始 样 例 和 导数 所 得 到 的 结果 。Simard et al.(1992) 的 实验 显示 两 种 情况 下 有 近似 相等 的 泛 
化 错误 率 , 但 TANCENTPRop 能 更 有 效 地 收敛 。 有 意思 的 是 第 4 章 提 到 的 学 习 驾 驶 汽车 的 
ALVINN 系统 ,使 用 了 很 相似 的 途径 综合 附加 训练 样 例 。 它 使 用 有 关 如 何 根据 镜头 图 像 的 水 
平平 移 来 改变 驾驶 方向 的 先 验 知 识 ,创建 多 个 综合 的 训练 样 例 以 扩充 每 个 观察 到 的 训练 样 例 。 


12.4.4 EBNN 算法 


EBNN(Explanation-Based neural net work ) 是 基于 解释 的 神经 网 络 ( 见 Mitchell & Thrun 
1993a, Thrun 1996) ,这 种 算法 用 两 种 方式 改进 了 TANGENTPRop 算法 。 首 先 , 它 不 依靠 用 户 提 
供 训 练 导 数 , 而 是 对 每 个 训练 样 例 自行 计算 训练 导数 。 计 算 方 法 是 通过 用 一 套 给 定 的 领域 理 
论 来 解释 每 个 训练 样 例 。 其 次 ,EBNN 涉及 了 如 何 确定 学 习 过 程 中 归纳 和 分 析 部 分 相对 重要 
程度 的 问题 ( 即 如 何 选择 式 (12.1) 中 参数 w 的 值 )。j 的 值 是 对 每 个 训练 样 例 独立 选择 的 , 它 
基于 一 个 启发 式 规 则 ,考虑 领域 理论 能 否 精 确 预 测 特定 样 例 的 训练 值 。 因 此 对 于 那些 能 由 领 
域 理论 正确 解释 的 训练 样 例 ,学 习 的 分 析 成 分 被 强化 ;而 对 不 能 正确 解释 的 样 例 ,分 析 成 分 被 
弱化 。 

EBNN 的 输入 包括 :(1) 形 式 为 (x;, f(x;)) 的 一 组 训练 样 例 ,不 包含 训练 导数 ;(2) 一 组 领 
域 理 论 ,类 似 于 基于 解释 的 学 习 ( 见 第 11 章 ) 和 KBANN 中 使 用 的 ,但 它 表示 为 一 组 预先 训练 
过 的 神经 网 络 ,而 不 是 Hom 子 句 。EBNN 的 输出 是 一 个 能 逼近 目标 函数 f 的 新 的 神经 网 络 。 
学 习 到 的 网 络 能 够 拟 合 训 练 样 例 (x;, f(x;)) 以 及 从 领域 理论 中 抽取 的 的 训练 导数 。 对 训 
练 样 例 《x;, f(xi)) 的 拟 合 构成 了 学 习 的 归纳 成 分 ,而 对 领域 理论 中 抽取 的 训练 导数 的 拟 合 构 
成 了 学 习 的 分 析 成 分 。 

为 说 明 EBNN 中 使 用 的 领域 理论 ,考虑 图 12-7。 图 的 上 面部 分 显示 的 是 目标 晃 数 Cup 
的 EBNN 领域 理论 ,每 一 方块 表示 领域 理论 中 一 个 神经 网 络 。 注 意 在 此 例 中 , 表 12-3 的 符号 
领域 理论 中 每 个 Horn 子 句 有 一 对 应 的 网 络 。 例 如 , 标 为 Graspable 的 网 络 输入 为 一 个 实例 描 
述 ,输出 为 反映 对 象 是 否 Graspable 的 值 (EBNN 典型 情况 下 用 0. 8 表示 真 命题 ,用 0. 2 表示 
假 命题 ) 。 该 网 络 类 似 于 表 12-3 中 给 出 的 Graspable 的 Horn 子 句 。 某 些 网 络 以 其 他 网 络 的 
输出 作为 输入 (例如 ,最 右边 标 为 Cup 的 网 络 的 输入 为 Sitable、Liftable 和 Open Vessel 网 络 的 
输出 )。 因 此 ,组 成 领域 理论 的 这 些 网 络 可 以 链接 起 来 ,对 每 个 输入 案例 推理 出 目标 函数 ,如 
Horn 子 句 之 间 的 链接 一 样 。 一 般 来 说 ,这 些 领 域 理论 网 络 可 由 某 外 部 源 提供 给 学 习 器 ,或 者 也 
可 是 同一 系统 以 前 学 习 的 结果 。EBNN 使 用 这 些 领 域 理论 来 学 习 新 的 目标 函数 。 它 在 此 过 程 中 
不 改变 领域 理论 。 

EBNN 的 目的 是 学 习 一 个 描述 目标 函数 的 新 神经 网 络 。 我 们 将 此 新 网 络 称 为 目标 网 络 
(target network)。 在 图 12-7 的 例子 中 ,目标 网 络 Cup argo 显示 在 图 的 底部 , 它 的 输入 为 任意 
的 实例 描述 ,输出 为 表示 此 对 象 是 否 为 Cup 的 值 。 

EBNN 通过 执行 前 一 节 描 述 的 TancentProp 算法 来 学 习 目 标 网 络 。 回 亿 一 下 , Tan- 
GENTPROP 训练 网 络 以 拟 合 训练 值 和 训练 导数 。EBNN 把 它 接收 到 的 输入 训练 值 (x;, f(x;)》 
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传递 给 TANGENTPRoP。 此 外 , EBNN 还 把 它 从 领域 理论 中 计算 出 的 导数 提供 给 Tan- 
GENTPROP。 为 理解 EBNN 是 如 何 计 算 这 些 训练 导数 的 ,再 次 考虑 图 12-7。 图 上 方 显示 了 对 一 
特定 训练 实例 * ,领域 理论 作出 的 目标 函数 值 预测 。EBNN 对 应 于 输入 实例 的 每 一 个 特征 计 
算 此 预测 的 导数 。 例 如 在 图 中 ,实例 x; 描述 为 几 个 特征 如 MadeO fStyrofoam = 0.2( 即 为 假 )， 
而 领域 理论 预测 为 Cup = 0.8( 即 真 )。EBNN 对 应 于 每 个 实例 特征 计算 此 预测 的 偏 导 , 得 到 
下 面 的 偏 导 集 合 : 
[ 3 Cup 3 Cup . 2 Cup ] 
9 BottomIsFlat’ 9 ConcavityPoints Up’ ` 9MadeO fStyrofoam i,- z 
这 组 导数 是 领域 理论 预测 函数 对 输入 实例 的 梯度 。 下 标 表示 这 些 导数 在 x = x; 上 计算 。 

在 更 一 般 的 情况 下 ,目标 函数 有 多 个 输出 单元 ,梯度 对 每 个 输 出 进行 计算 。 这 个 梯度 矩阵 被 称 
为 目标 函数 的 雅 可 比 行列 式 (Jacobian) 。 


HE ML Ie EB] 
的 训练 样 例 的 解释 : 






Flat = TTT 


训练 导数 


目标 网 络 : 


此 解释 由 领域 理论 网 络 (上 部 ) 作 出 的 目标 函数 值 预 测 构成 。 训 练 导 数 从 此 解释 中 抽取 出 来 ,以 训练 分 离 的 目 
标 网 络 。 每 个 和 矩形 块 表 示 一 个 单独 的 多 层 神 经 网 络 
图 12-7 EBNN 中 一 训练 样 例 的 解释 
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为 理解 这 些 训练 导数 在 帮助 学 习 目标 网 络 时 的 重要 性 ,考虑 导数 于 = CeP _ MRR 
理论 编码 的 知识 中 Expensive 特征 与 目标 函数 Cup 无 关 ,那么 从 此 解释 中 抽取 的 导数 


2Cup 的 值 为 0。 为 0 的 导数 表示 这 样 的 断言 , 即 特征 Expensive 上 的 改变 对 Cup 值 的 预 


3 Expensive 


测 没有 影响 。 另 一 方面 ,很 大 的 正 导 数 或 负 导 数 表示 断言 :此 特征 与 目标 值 非常 相关 。 因 此 ， 
从 领域 理论 解释 中 抽取 的 导数 提供 了 区 分 相关 和 不 相关 特征 的 重要 信息 。 当 这 些 抽取 出 的 导 
数 被 提供 为 TANGENTPRoP 的 训练 导数 以 学 习 目 标 网 络 Cupar ,它们 提供 了 指导 泛 化 过 程 的 
有 用 的 偏 置 。 通 常 神经 网 络 中 的 语法 归纳 偏 置 在 这 里 被 替换 为 从 领域 理论 中 得 到 的 导数 所 产 
生 的 偏 置 。 

上 面 我 们 描述 了 领域 理论 预测 如 何 被 用 于 生成 一 组 训练 导数 。 精 确 地 讲 , 完 整 的 EBNN 
算法 如 下 :给 定 训练 样 例 和 领域 理论 ,EBNN 首先 创建 一 个 新 的 全 连接 前 馈 网 络 以 表示 此 目标 
函数 。 该 目标 网 络 用 随机 小 权 值 初始 化 , 像 在 反 向 传播 中 那样 。 然 后 ,EBNN 对 每 个 训练 样 例 
《xi, 了 (zi)) 确 定 相 应 的 训练 导数 ,用 两 步 实现 。 第 一 步 ,用 领域 理论 来 预测 实例 x; 的 目标 函 
数值 。 令 4(x;) 代 表 此 领域 理论 对 实例 xi 的 预测 。 换 言 之 , 4 (xi ) 为 形成 x; 的 解释 的 领域 
理论 组 合 网 络 定义 的 函数 。 第 二 步 , 分 析 领 域 理论 的 权 值 和 激活 状态 以 抽取 出 对 应 x; 每 个 分 
量 的 4(xi) 的 导数 ( 即 在 x = x; 时 计算 4(x) 的 雅 可 比 行列 式 )。 抽 取 导 数 的 过 程 类 似 于 反 向 
传播 算法 中 计算 8 项 (见习 题 12.5)。 最 后 ,EBNN 使 用 了 TANGENTPRoP 的 一 个 微小 变型 来 
训练 目标 网 络 以 拟 合 下 面 的 误差 函数 。 


a 9A(x 
= Sy ran - Fo)? + wD (SD - aot ,| (12.2) 
其 中 : 
i- | A(xi) - f(xi) | (12.3) 


Ki = c 
这 里 ,x; 代表 第 i 个 训练 实例 , 4( x) 代表 输 入 x 的 领域 理论 预测 。 上 标 符号 xi 代表 向 
Bx 的 第 j 个 分 量 ( 即 神经 网 络 的 第 j 个 输入 结 点 )。 系 数 ce 为 一 个 归 一 化 常量 , 它 的 值 是 为 
了 保证 对 所 有 i,0< x<1。 
虽然 这 个 公式 看 起 来 很 复杂 ,其 中 的 思想 却 很 简单 。 由 式 (12.2) 给 出 的 误差 函数 与 
式 (12.1) 中 由 TANGENTPROP 最 小 化 的 误差 函数 有 相同 的 一 般 形式 。 最 左边 的 项 是 训练 值 
f(xi) 和 目标 网 络 预测 值 f(x;) 之 间 的 误差 平方 。 最 右边 的 项 衡量 了 从 领域 理论 中 抽取 的 训 


练 导数 24 2 和 目标 网 络 的 实际 导数 af C2) 之 间 的 误差 平方 。 因 此 ,最 左边 的 项 提供 归纳 约 


E ,假设 必须 氢 合 训练 数据 ,而 最 右边 的 项 提供 的 是 分 析 约束 , 即 假设 必须 拟 合 从 领域 理论 中 
(sla, x) 

抽取 的 训练 导数 。 注 意 在 式 (12. 2) 中 的 导数 2 ) 只 是 式 (12. pipaa E y 
_ 种 特殊 形式 ,其 中 将 5 (a4;) 中 的 ai BRO a + a, EBNN 使 用 的 精确 的 权 值 训练 法 则 由 
Thrun(1996) 描 述 。 | 

EBNN 中 归纳 和 分 析 学 习 部 分 的 相对 重要 性 由 常量 yi; 确定 , 它 由 式 (12.3) 定 义 。y 的 
值 是 由 领域 理论 的 预测 A Ca.) 和 训练 值 /( x,) 的 差异 确定 的 。 学 习 的 分 析 成 分 对 于 能 被 领域 
理论 正确 预测 的 训练 样 例 其 权 值 被 加 重 ,而 对 于 不 能 正确 预测 的 样 例 权 值 减轻 。 这 一 加 权 启 
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发 式 规则 假定 在 训练 值 能 够 被 领域 理论 正确 预测 时 ,从 领域 理论 中 抽取 的 训练 导数 更 有 可 能 
是 正确 的 。 虽 然 可 能 构造 出 此 启发 式 规则 失败 的 情况 ,但 在 实践 中 几 个 领域 中 都 已 证 明 是 有 
效 的 (例如 , 见 Mitchell & Thrun 1993a, Thrun 1996), 


12.4.5 说 明 


概括 地 说 ,EBNN 算法 使 用 的 领域 理论 被 表示 为 一 组 预先 学 习 到 的 神经 网 络 , 然 后 领域 理 
论 与 训练 样 例 一 起 训练 其 输出 假设 (目标 网 络 )。 对 每 个 训练 样 例 ,EBNN 使 用 其 领域 理论 来 
解释 它 ,然后 从 此 解释 中 抽取 训练 导数 。 对 实例 的 每 个 属性 计算 出 一 个 训练 导数 ,以 描述 按照 
领域 理论 ,目标 函数 值 是 怎样 被 属性 值 的 微小 变化 影响 的 。 这 个 训练 导数 被 提供 给 TAN- 
GENTPRoP 的 一 个 变 体 , 其 中 使 目标 网 络 拟 合 这 些 导 数 和 训练 样 例 值 。 拟 合 导数 限制 了 学 习 到 
网 络 必须 拟 合 领域 理论 给 出 的 依赖 关系 ,而 拟 合 训 练 值 限制 了 网 络 必须 拟 合 观察 到 的 数据 本 
身 。 拟 合 导数 的 权 值 w 是 由 每 个 训练 样 例 独 立 确定 的 , 它 基于 领域 理论 预测 此 样 例 训练 值 的 
精确 程度 。 

在 多 个 领域 内 , EBNN 已 被 证 明 是 从 近似 领域 理论 中 学 习 的 一 种 有 效 方法 。Thrun 
(1996) 描 述 了 它 在 上 述 讨论 的 Cup 学 习 任 务 的 变 体 上 的 应 用 ,并 且 报 告 说 它 比 标准 反 向 传播 
算法 泛 化 更 为 精确 ,特别 是 在 训练 数据 缺少 的 情况 下 。 例 如 ,在 经 过 30 个 样 例 训练 后 , E- 
BANN 在 另 一 测试 数据 集 上 得 到 的 均 方 根 误差 为 5.5, 而 反 向 传播 的 误差 为 12.0。Mitchell 
& Thrun(1993a) 描 述 了 应 用 EBNN 以 学 习 控 制 模拟 的 移动 机 器 人 ,其 中 领域 理论 由 神经 网 络 
构成 ,它们 预测 了 不 同 机 器 人 对 外 界 状态 的 动作 的 效果 。 其 中 EBNN 也 使 用 了 近似 的 预先 学 
习 的 领域 理论 ,并 获得 了 比 反 向 传播 更 好 的 性 能 。 这 里 反 向 传播 需要 约 90 个 训练 事件 才能 达 
到 EBNN 中 25 个 训练 事件 后 的 性 能 。0'Sullivan et al. (1997) 和 Thrun(1996) 描 述 了 EBNN 
应 用 到 其 他 几 种 真实 世界 感知 和 控制 任务 ,其 中 领域 理论 由 网 络 组 成 , 它 使 用 声 纳 、 视 党 和 激 
光 范 围 传感器 预测 了 室内 移动 机 器 人 的 动作 效果 。 

EBNN 与 其 他 基于 解释 的 学 习 方法 之 间 存 在 内 在 的 联系 ,如 第 11 章 描述 的 PRoroc- 
EBC。 它 也 基于 领域 理论 构造 解释 (对 样 例 目 标 值 的 预测 )。 在 PRoroc-EBG 中 ,解释 的 构造 
来 自 于 由 Horn 子 句 组 成 的 领域 理论 ,而 目标 假设 的 精 化 是 通过 计算 此 解释 成 立 的 最 弱 条 件 。 
因此 解释 中 的 相关 依赖 性 在 学 习 到 的 Horn 子 句 假设 中 反映 。EBNN 构造 了 一 个 相似 的 解 
释 , 但 它 是 基于 神经 网 络 形式 的 领域 理论 ,而 不 是 Horn 子 句 。 如 在 PRoroc-EBG 中 ,相关 的 依 
赖 性 是 从 解释 中 抽取 的 ,而 且 被 用 于 精 化 目标 假设 。 在 EBNN 中 ,这 些 依赖 性 的 形式 为 导数 ， 
因为 在 神经 网 络 这 样 的 连续 函数 中 ,导数 是 表示 依赖 性 的 很 自然 的 方法 。 相 反 , 在 符号 解释 或 
逻辑 证 明 中 ,表示 依赖 性 的 自然 方法 是 描述 此 证 明 所 应 用 的 样 例 集 。 

第 11 章 描 述 的 符号 表示 的 基于 解释 的 方法 与 EBNN 在 学 习 能 力 方面 有 几 点 不 同 。 第 一 
个 主要 不 同 在 于 EBNN 能 处 理 不 完美 的 领域 知识 ,而 PRoLoc-EBG 不 能 。 这 一 不 同 是 由 于 
EBNN 是 建立 在 拟 合 观 察 训练 值 的 归纳 机 制 之 上 的 ,而 且 领 域 理论 只 被 作为 学 习 到 的 假设 的 
附加 约束 。 第 二 个 重要 不 同 在 于 PROLOC-EBG 学 习 到 逐渐 增长 的 Hom 子 句 集 ,而 EBNN 学 
习 到 固定 大 小 的 神经 网 络 。 如 第 11 章 讨论 的 ,学 习 Hon 子 句 集 的 一 个 难题 是 , 随 着 学 习 过 程 
的 进行 和 新 Horn 子 句 被 加 入 ,分 类 新 实例 的 开销 不 断 增 长 。 然 而 固定 大 小 的 神经 网 络 也 有 
相应 的 不 足 , 它 可 能 无 法 表示 足够 复杂 的 函数 ,而 增长 的 Horn 子 句 集 可 以 表示 越 来 越 复杂 的 
PAK. Mitchell & Thrun(1993b) 更 详细 地 讨论 了 关于 EBNN 和 符号 表示 的 基于 解释 的 学 习 
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方法 之 间 联 系 。 
12.5 使 用 先 验 知识 来 扩展 搜索 算 子 


前 面 两 节 分 析 了 先 验 知识 在 学 习 中 的 两 种 不 同 角色 。 初 始 化 学 习 器 的 假设 和 改变 指标 函 
数 以 引导 假设 空间 上 的 搜索 。 本 节 我 们 考虑 使 用 先 验 知识 来 改变 假设 空间 搜索 的 第 三 种 方 
法 : 即 改变 搜索 中 定义 合法 搜索 步 的 算 子 集合 。 这 一 途径 被 用 于 FOCL(Pazzani et al. 1991, 
Pazzani & Kibler 1992) 以 及 ML-SMART(Bergadano & Giordanna 1990) 等 系统 。 这 里 我 们 用 
FOCL 来 说 明 这 一 途径 。 


12.5.1 FOCL 算法 


FOCL 是 第 10 章 描述 的 纯 归纳 的 FOIL 系统 的 一 个 扩展 。FOIL 和 FOCL 都 学 习 一 组 一 
Bt Horn 子 句 以 覆盖 观察 到 的 训练 例 。 两 个 系统 都 应 用 了 序列 覆盖 算法 来 学 习 单个 Horn F 
句 , 移 去 那些 被 新 Horn 子 名 覆盖 的 正 例 ,然后 在 剩余 的 训练 样 例 上 重复 这 一 过 程 。 在 两 个 系 
统 中 ,每 个 新 Horn 子 句 都 是 通过 一 般 到 特殊 搜索 创建 的 ,开始 于 最 一 般 的 Horn 子 句 ( 即 不 含 
前 件 的 子 句 )。 然 后 生成 当前 子 名 的 几 个 候选 特 化 式 , 并 选择 其 中 关于 训练 样 例 有 最 大 信息 增 
益 的 一 个 。 重 复 该 过 程 ,生成 更 多 的 候选 特 化 式 并 选择 最 佳 的 ,直到 获得 一 个 满足 指定 性 能 的 
Horn 子 句 。 
FOIL 和 FOCL 之 间 的 区 别 在 于 搜索 单个 Horn 子 句 的 一 般 到 特殊 过 程 中 候选 假设 生成 
的 方法 。 第 10 章 描述 的 FOIL 生成 每 个 候选 特 化 式 是 通过 加 入 一 个 新 文字 到 子 句 前 件 中 得 
到 的 。FOCL 使 用 同样 的 方法 产生 候选 特 化 式 ,但 还 基于 领域 理论 生成 了 附加 的 特 化 式 。 
图 12-8 的 搜索 树 的 实 线 边 显示 了 在 FOIL 典型 的 搜索 中 考虑 的 一 般 到 特殊 搜索 步 。 图 12-8 
搜索 树 的 虚线 边 表示 FOCL 中 基于 领域 理论 考虑 的 附加 候选 特 化 式 。 
虽然 FOCL 和 FOIL 都 能 学 习 一 阶 Horn 子 句 ,我 们 这 时 演示 的 操作 都 只 有 简单 的 命题 
Horn 子 句 (无 变量 的 )。 再 次 考虑 图 12-3 中 的 Cup 目标 概念 训练 样 例 和 领域 理论 。 为 描述 
FOIL 的 操作 ,我 们 必须 首先 在 出 现 于 领域 理论 和 假设 表示 中 的 两 种 文字 之 间作 一 区 分 。 当 
一 个 文字 可 被 用 于 描述 一 个 输出 假设 时 ,我 们 称 它 是 操作 型 (operational)。 例 如 ,在 图 12-3 的 
Cup 例子 中 ,我 们 允许 输出 假设 中 只 能 引用 描述 训练 样 例 的 12 个 属性 (如 : HasHandle, Han- 
dleOnTop )。 基 于 这 12 个 属性 的 文字 被 认为 是 操作 型 的 。 相反 ,那些 只 出 现在 领域 理论 中 作 
为 中 间 特 征 但 不 是 实例 的 原子 属性 的 文字 ,被 认为 是 非 操作 型 。 在 此 情况 下 非 操作 型 属性 的 
一 个 例子 是 属性 Stable。 | 
在 其 一 般 到 特殊 搜索 的 每 一 点 ,FOCL 使 用 下 面 两 种 算 子 扩展 其 当前 假设 h: 
1) 对 不 是 一 部 分 的 每 个 操作 型 文字 ,创建 的 一 个 特 化 式 ,方法 是 加 入 文字 到 前 件 
中 。 这 也 是 FOIL 中 生成 候选 后 继 的 方法 。 图 12-8 实 线 箭头 表示 了 此 种 类 型 的 特 化 。 
2) 按照 领域 理论 ,创建 一 个 操作 型 的 且 是 目标 概念 的 逻辑 充分 条 件 。 将 这 组 文字 加 入 到 
的 当前 前 件 中 去 。 最 后 修剪 h 的 前 件 , 移 去 对 于 训练 数据 不 需要 的 文字 。 图 12-8 
中 虚 稍 头 表 示 了 此 种 类 型 的 特 化 。 
上 面 第 2 种 算 子 的 详细 过 程 如 下 。FOCL 首先 选择 一 条 领域 理论 子 句 , 它 的 头 部 (前 件 ) 
匹配 目标 概念 。 如 果 有 多 个 这 样 的 子 句 ,选择 其 中 子 句 体 (后 件 ) 关 于 训练 样 例 有 最 高 信息 增 
益 的 。 例 如 ,在 领域 理论 的 训练 数据 中 (参见 图 12-3) ,只 有 这 样 一 个 子 句 : 
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Cup< Stable, Liftable, Open Vessel 

所 选 子 句 的 前 件 形成 了 目标 概念 的 一 个 逻辑 充分 条 件 。 在 这 些 充分 条 件 中 ,再 次 使 用 领 
域 理 论 ,每 个 非 操 作 型 文字 被 替换 掉 , 并 且 将 子 句 前 件 代 人 到 子 句 后 件 中 。 例 如 ,领域 理论 子 
句 Stable<- BottomIsFlat 被 用 于 将 操作 型 的 BottomIsFlat 代 换 非 操 作 型 的 Stable。 这 个 “ 展 
FF” ( unfolding) 领 域 理论 的 过 程 持续 到 充分 条 件 被 表述 为 操作 型 文字 。 如 果 有 多 个 可 选 的 产 
生 不 同 结果 的 领域 理论 ,那么 在 展开 过 程 的 每 一 步 用 贪 禁 的 方法 选择 有 最 大 信息 增益 的 一 个 。 
读者 可 以 验证 ,在 这 个 例子 中 ,给 定数 据 和 领域 理论 ,最终 的 操作 型 充分 条 件 为 ; 

BottomIsFlat, HasHandle, Light, HasConcavity, ConcavityPointsUp 





Cup t- 
由 领域 
理论 生成 
Cup << HasHandie 
(2+,3-] 
\ 
-Cup t- “7 HasHandie \ 
[2+,3-] ‘ 
Cup a- i ~ 
” Fragile — Cup BontomisFlat, 
(2+,4-] Light, 
HasConcavity, 
ConcavityPointsUp 
(4+,2-] 
Cup A- 'sFlat, 一 
Light, 
HasConcavity, 
ConcavityPointsUp ~ 
HandieOnTop Cup = BottomlsFlat, 
{0+.2-] Light 
Cup ~<@ BottomisFlat, HasConcavity, 
Light, ConcavityPointsUp, 
HasConcavity, HandieOnSide 
ConcavityPointsUp, [24.0-] 
“"lHandleOnTop 


[4+.0-] 


为 学 习 一 个 规则 ,FOCL 从 一 般 的 假设 开始 ,搜索 逐渐 特殊 的 假设 。 有 两 种 算 子 用 于 生成 当前 假设 的 特 化 式 。 
一 种 是 增加 一 个 新 的 文字 (图 中 的 实 线 )。 另 一 种 算 子 是 通过 增加 一 组 文字 特 化 此 规则 。 这 组 文字 按照 领域 理 
论 构成 了 目标 概念 的 逻辑 充分 条 件 (图 中 虚线 )。FOCL 在 所 有 这 些 候选 式 中 基于 它们 在 数据 上 的 性 能 进行 选 
择 。 因 此 ,不 完美 的 领域 理论 只 会 在 有 证 据 支持 理论 时 才 会 影响 假设 。 该 例 基于 前 面 KBANN 例子 相同 的 训练 
数据 和 领域 理论 


图 12-8 FOCL 中 的 假设 空间 搜索 


作为 生成 候选 特 化 式 的 最 后 一 步 ,此 充分 条 件 被 修剪 。 对 表达 式 中 的 每 个 文字 ,除非 文字 
的 移 除 会 降低 训练 例 上 的 分 类 精度 ,否则 它 被 移 去 。 包 含 这 一 步骤 是 为 了 从 过 度 特 化 (over- 
specialization) 的 情况 下 恢复 ,这 时 不 完美 的 领域 理论 中 包含 不 相关 的 文字 。 在 我 们 的 例子 中 ， 
上 述 的 文字 集合 匹配 两 个 正 例 和 两 个 反例 。 修 剪 ( 移 去 ) 文 字 HasHandle 会 使 性 能 改进 。 因 
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此 ,最 终 的 修剪 过 的 操作 型 充分 条 件 为 : 
BottomIsFlat, Light, HasConcavity, ConcavityPointsUp 

这 组 文字 现在 被 加 入 到 当前 假设 的 前 件 中 。 注 意 ,此 假设 是 图 12-8 中 虚线 箭头 显示 的 搜 
索 步 的 结果 。 

使 用 了 上 面 两 种 操作 后 ,一 旦 当前 假设 的 候选 特 化 式 已 经 生成 ,有 最 大 信息 增益 的 候选 者 
也 就 被 选择 了 。 图 12-8 中 显示 的 例子 中 ,在 搜索 树 的 第 一 层 选择 的 候选 者 是 由 领域 理论 生成 
的 。 搜 索 过 程 继续 考虑 这 个 领域 理论 推举 的 前 件 的 更 进一步 的 特 化 式 ,这 样 学 习 的 归纳 成 分 
可 以 精 化 领域 理论 中 导出 的 前 件 。 在 此 例 中 ,领域 理论 先 影响 搜索 的 第 一 层 。 然 而 ,情况 并 非 
总 是 如 此 。 如 果 在 第 一 层 对 其 他 候选 有 更 强 的 经 验 化 的 支持 ,领域 理论 推举 的 文字 仍 可 能 在 
搜索 的 后 续 步 骤 中 被 加 入 。 概 括 地 说 ,FOCL 学 习 以 下 形式 的 Hom FA: 

co; À 0, A of 

其 中 c 为 目标 概念 , o 为 初始 的 操作 型 文字 的 合 取 , 它 由 第 一 个 语法 算 子 每 次 加 入 一 个 
文字 ,o 是 基于 领域 理论 单 步 加 入 的 操作 型 文字 合 取 ,而 oj 为 第 一 个 语法 算 子 每 次 加 入 一 个 
文字 的 操作 型 文字 的 合 到 。 这 三 个 文字 集合 都 可 能 为 空 。 

上 述 的 讨论 演示 了 使 用 命题 型 领域 理论 在 单个 Horn 子 句 的 一 般 到 特殊 搜索 中 创建 假设 
的 候选 特 化 式 的 过 程 。 该 算法 很 容易 被 扩展 到 一 阶 表示 中 ( 即 含 有 变量 的 表示 )。 第 10 章 详 
细 讨 论 了 FOIL 中 生成 一 阶 Hon 子 句 的 算法 ,包括 上 述 第 一 个 算 子 扩展 到 一 阶 表示 的 情况 。 
为 扩展 第 二 个 算 子 以 处 理 一 阶 领域 理论 ,必须 在 展开 领域 理论 时 考虑 变量 置换 。 这 可 以 通过 
涉及 到 表 11-3 回归 过 程 的 一 种 方法 完成 。 


12.5.2 说 朋 


FOCL 使 用 领域 理论 来 增加 搜索 单个 Horn 子 句 的 每 一 步 所 要 考虑 的 候选 特 化 式 数量 。 
图 12-9 比 较 了 FOCL 执行 的 假设 空间 搜索 以 及 纯 归 纳 的 FOIL 算法 执行 的 搜索 。FOCL 中 领 
域 理论 推举 的 特 化 式 对 应 FOIL 搜索 中 的 一 个 “ 宏 ”(marcro) 步 ,其 中 多 个 文字 在 一 步 中 被 加 
入 。 此 过 程 可 被 看 成 是 将 一 个 可 能 以 后 被 考虑 的 假设 提升 为 立即 被 考虑 的 假设 。 如 果 领 域 理 
论 是 正确 的 ,训练 数据 会 显示 出 此 假设 相对 于 其 他 假设 的 优越 性 ,因此 它 被 选择 。 如 果 领 域 理 
论 不 正确 ,对 所 有 候选 的 经 验 化 评估 会 将 搜索 导向 另外 一 条 路 径 。 

概括 地 说 ,FOCL 使 用 语法 生成 候选 特 化 式 的 同时 ,还 在 搜索 中 每 一 步 使 用 了 领域 理论 驱 
动 生成 候选 特 化 式 。FOCL 算法 在 这 些 候选 中 作出 选择 主要 是 基于 它们 对 训练 数据 的 经 验 化 
支持 。 因 此 ,领域 理论 的 使 用 方式 是 使 学 习 器 偏 置 ,但 基于 候选 们 在 训练 数据 上 的 性 能 进行 最 
终 的 选择 。 由 领域 理论 引信 的 这 种 偏 置 表现 形式 为 :优先 选择 最 相似 于 领域 理论 涵 蕴 (entail) 
的 操作 型 的 逻辑 充分 条 件 的 Horn 子 句 。 此 偏 置 与 纯 归纳 的 FOIL 程序 的 偏 置 结合 在 一 起 。 
后 面 一 个 偏 置 优先 选择 短 的 假设 。 

在 许多 不 完美 领域 理论 的 应 用 中 ,FOCL 已 显示 出 比 纯 归 纳 的 FOIL 算法 有 更 高 的 泛 化 
精度 。 例 如 Pazzanzi & Kibler(1992) 研 究 了 学 习 “ 合 法 棋盘 状态 ”概念 的 问题 。 给 定 60 个 训 
练 样 例 ,30 个 合法 的 终 盘 棋盘 状态 ,30 个 不 合法 的 。FOIL 在 一 独立 测试 样 例 集 上 得 到 86% 
的 精度 。FOCL 使 用 相同 的 60 个 训练 样 例 以 及 一 个 精度 为 76% 的 近似 领域 理论 。 结 果 得 到 
的 假设 泛 化 精度 为 94% 一 一 错误 率 比 FOIL 的 一 半 还 小 。 在 其 他 领域 也 得 到 了 类 似 的 结果 。 
例如 ,给 定 500 个 电话 网 问题 的 训练 样 例 以 及 电话 公司 NYNEX 对 它们 的 诊断 ,FOIL 精度 为 
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90% ,而 FOCL 在 给 定 相同 训练 数据 以 及 95% 精 度 的 领域 理论 时 ,最 终 达 到 精度 为 98% 。 


假设 空间 


对 训练 数据 有 同等 
氢 合 的 假设 


FOIL 搜索 





FOCL 扩 大 了 FOIL 中 使 用 的 搜索 算 子 集合 。FOIL 在 每 步 只 考虑 加 入 单个 新 文字 ,而 FOCL 还 考虑 加 入 由 领 
域 理 论 导出 的 多 个 文字 
图 12-9 FOCL 中 搜索 的 假设 空间 


12.6 研究 现状 


本 章 展示 的 方法 只 是 结合 分 析 和 归纳 学 习 的 可 能 途径 中 的 几 个 例子 。 其 中 每 个 方法 都 被 


证 明 在 所 选 领域 中 性 能 超出 纯 归 纳 的 学 习 方法 ,但 没有 一 个 在 大 范围 的 问题 领域 中 被 彻底 测 
试 或 证 明 。 结 合 归纳 和 分 析 学 习 的 主题 仍 是 一 个 非常 活跃 的 研究 领域 。 


12.7 小 结 和 补充 读物 





本 章 的 要 点 包括 : 

© 近似 的 先 验 知识 (或 领域 理论 ) 在 许多 实际 学 习 问 题 中 是 可 利用 的 。 决 策 树 和 神经 网 络 
反 向 传播 这 样 的 纯 归纳 方法 不 能 利用 这 样 的 领域 理论 ,因此 在 数据 缺少 时 性 能 较 差 。 
Prolog-EBG 这 样 的 纯 分 析 学 习 方法 能 够 利用 这 样 的 领域 理论 ,但 在 给 定 不 完美 先 验 知 
识 时 会 产生 不 正确 的 假设 。 结 合 归 纳 和 分 析 学 习 的 方法 可 以 获得 两 者 的 优点 , 减 小 样 
本 复杂 度 , 并 且 否 决 不 正确 的 先 验 知识 。 

o 看 待 结 合 归 纳 和 分 析 学 习 算 法 的 一 种 方法 是 ,考虑 领域 理论 是 如 何 影响 假设 空间 搜索 
的 。 本 章 我 们 考查 了 几 种 方法 ,它们 使 用 不 完美 的 领域 理论 :(1) 创 建 搜索 中 的 初始 假 
设 。(2) 扩 充当 前 假设 的 搜索 算 子 集合 。(3) 改 变 搜索 目标 。 

© 使 用 领域 理论 来 初始 化 假设 的 一 个 系统 是 KBANN。 此 算法 使 用 一 套 编码 为 命题 规则 
的 领域 理论 来 分 析 地 创建 等 价 于 领域 理论 的 神经 网 络 。 然 后 此 网 络 被 反 向 传播 算法 归 
纳 地 精 化 ,以 改进 它 在 训练 数据 上 的 性 能 。 结 果 是 一 个 被 原始 领域 理论 偏 置 的 网 络 , 它 
的 权 值 基于 训练 数据 被 归纳 精 化 。 

© TANCENTPROP 使 用 的 先 验 知识 被 表示 为 目标 函数 所 希望 的 导数 。 在 某 些 领域 里 ,如 图 
像 处 理 ,这 是 表示 先 验 知识 的 一 个 很 自然 的 方法 。TANGENTPRoP 通过 改变 指标 函数 使 
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用 这 一 知识 ,此 函数 在 搜索 假设 空间 的 梯度 下 降 中 被 最 小 化 。 
e EBNN 使 用 领域 理论 改变 人 工 神经 网 络 搜索 的 假设 空间 的 目标 。 它 使 用 的 领域 理论 由 
预先 学 习 的 神经 网 络 组 成 ,其 作用 是 实现 一 个 神经 网 络 ,以 模拟 符号 的 基于 解释 的 学 
习 。 如 在 符号 的 基于 解释 的 学 习 中 一 样 ,领域 理论 被 用 于 解释 单个 样 例 , 获 得 不 同样 例 
特征 的 相关 程度 的 信息 。 然 而 在 神经 网 络 表示 中 ,有 关 相 关 性 的 信息 被 表示 为 目标 函 
数 对 应 于 实例 特征 的 导数 。 网 络 假设 的 训练 使 用 了 TANGENTPRoP 算法 的 一 个 变种 ,其 
中 被 最 小 化 的 误差 不 仅 包含 了 网 络 输出 值 的 误差 ,还 包含 了 从 解释 中 获得 的 网 络 导数 
的 误差 。 
o FOCL 使 用 领域 理论 来 扩展 每 步 搜索 中 考虑 的 的 候选 集 。 它 使 用 表示 为 一 阶 Horn F 
句 的 近似 领域 理论 来 学 习 一 组 有 逼近 目标 函数 的 Horn 子 句 。FOCL 应 用 了 序列 覆盖 算 
法 ,通过 一 般 到 特殊 搜索 过 程 来 学 习 每 个 Horn 子 句 。 领 域 理论 被 用 于 扩大 此 搜索 中 每 
步 考虑 的 下 一 个 更 特殊 的 候选 假设 集 。 然 后 候选 假设 基于 它 在 训练 数据 上 的 性 能 被 评 
估 。 以 这 种 方法 ,FOCL 结合 了 FOIL 的 贪 禁 的 、 一 般 到 特殊 的 搜索 策略 以 及 分 析 方法 
中 的 规则 链 分 析 推 理 。 
e 如 何 最 好 地 融合 先 验 知识 到 新 观察 事物 中 的 问题 , 仍 是 机 器 学 习 中 主要 的 待 解决 问题 
之 一 。 
还 有 许多 种 算法 试图 结合 归纳 和 分 析 学 习 。 例 如 ,第 6 章 讨论 的 学 习 贝 叶 斯 网 的 方法 提 
供 了 另 一 种 途径 。 本 章 末 尾 的 参考 文献 提供 了 进一步 阅读 的 例子 来 源 。 
习题 
12.1 考虑 学 习 一 个 目标 概念 GoodCreditRisk, 它 定义 在 某 实例 描述 之 上 ,实例 描述 包含 4 个 
属性 HasStudentLoan，HasSavingshAccount，lsStudent，0OwnsCar。 对 于 下 面 的 领域 
理论 ,给 出 KBANN 创建 的 初始 网 络 ,包括 所 有 的 网 络 连接 和 权 值 。 
GoodCreditRisk~-Empolyed , LowDebt 
Employed~— IsStudent 
Low Debt«— HasStudentLoan, HasSavingsAccount 
12.2 KBANN 将 一 组 命题 Horn 子 句 变换 为 一 个 初始 神经 网 络 。 考 虑 一 类 n-of-m 子 句 ,这 
种 Horn 子 句 前 件 (先行 词 ) 中 包含 m 个 文字 ,并 且 包含 一 关联 的 参数 ninam, 4m 
个 前 件 中 至 少 n 个 满足 时 ,此 n-of-m Hon 子 名 被 认为 是 满足 的 。 例 如 , 子 句 : 
Student+ LivesInDorm, Young, Studies; n=2 
如 果 3 个 前 件 中 至 少 两 个 满足 时 ,断言 此 人 为 Student. 
给 出 与 KBANN 相似 的 一 个 算法 , 它 接受 一 组 命题 型 n-of-m 子 句 并 且 能 构造 出 与 领 
域 理论 一 致 的 神经 网 络 。 
12.3 试 将 KBANN 扩展 ,以 接受 包含 一 阶 Horn 子 句 的 领域 理论 ,而 不 只 是 命题 Horn FA 
( 即 允 许 Hom 子 句 包含 变量 ,如 第 10 章 中 那样 )。 给 出 一 个 算法 ,构造 等 价 于 一 个 
Horn 子 句 集 的 神经 网 络 ,如果 不 能 则 讨论 其 中 的 困难 。 
12.4 ”此 习题 要 求 推导 出 类 似 于 TANGENTPRoP 使 用 的 梯度 下 降 法 则 。 考 虑 实例 空间 X 由 实 
数 构成 ,而 假设 空间 H Hr 的 二 次 函数 构成 。 即 每 个 假设 形式 为 : 
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12.5 


12.6 


12.7 


12.8 


h(x) = wot wi x + wax? 
(a) 推 导 一 个 梯度 下 降 法 则 , 它 最 小 化 反 向 传播 中 相同 的 判 据 : 即 在 假设 和 训练 数据 目 
标 值 之 间 的 误差 平方 和 。 
(b) 推 导 一 个 梯度 下 降 法 则 , 它 最 小 化 TANCENTPROP 中 相同 的 判 据 。 只 考虑 一 个 变换 
sla 9 x) 三 和 十 CQ 
EBNN 从 解释 中 抽取 训练 导数 的 方法 是 ,考虑 构成 解释 的 神经 网 络 的 权 值 和 激活 状态 。 
考虑 一 个 简单 的 例子 ,其 中 解释 的 形式 为 有 n 个 输入 的 单个 sigmoid 单元 。 推 导 一 个 


prea OF) ,其 中 x; 为 输入 到 此 单元 的 特定 训练 实例 , Fa) H sig 


ax! 
moid 单元 输出 ,并 且 x/i 代表 sigmoid 单元 第 j 个 输入 。 也 可 以 使 用 记号 of 代表 x 的 
第 j 个 分 量 。 提 示 : 该 导数 与 反 向 传播 训练 法 则 中 的 导数 相似 。 
再 次 考虑 图 12-8 中 显示 的 FOCL 搜索 步骤 。 假 如 在 搜索 的 第 一 层 选择 的 假设 改 
为 : 

Cup `~  HasHandle 

描述 FOCL 生成 的 作为 此 假设 后 继 的 第 二 层 候选 假设 。 只 需要 包括 那些 由 FOCL 的 
第 二 个 搜索 算 子 生成 的 假设 , 即 用 领域 理论 生成 的 假设 。 不 要 忘记 对 充分 条 件 进 行 后 
修剪 。 使 用 表 12-3 中 的 训练 数据 。 
本 章 讨 论 了 3 种 途径 来 使 用 先 验 知识 影响 假设 空间 的 搜索 。 你 认为 如 何 集成 这 三 种 方 
法 ?能 否 提 出 一 个 特殊 算法 , 它 集成 了 至 少 两 种 算法 以 针对 某 种 特殊 的 假设 表示 。 在 
此 集成 中 有 什么 优 缺点 ? 
再 次 考虑 12.2.1 节 中 的 问题 , 即 当 数据 和 先 验 知识 都 存在 时 ,应 使 用 什么 样 的 准则 在 
假设 中 进行 选择 。 给 出 你 在 这 个 问题 上 的 见解 。 
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第 13 章 增强 学 习 


增强 学 习 要 解决 的 是 这 样 的 问题 :一 个 能 够 感知 环境 的 自治 agent, 怎样 通过 学 习 选 择 能 
达到 其 目标 的 最 优 动 作 。 这 个 很 具有 普遍 性 的 问题 应 用 于 学 习 控制 移动 机 器 人 、 在 工厂 中 学 
习 最 优 操作 工序 以 及 学 习 棋 类 对 弈 等 。 当 agent 在 其 环境 中 作出 每 个 动作 时 , 施 教 者 会 提供 
奖励 或 惩罚 信息 ,以 表示 结果 状态 的 正确 与 否 。 例 如 ,在 训练 agent 进行 棋 类 对 弈 时 , 施 教 者 
可 在 游戏 胜利 时 给 出 正 回报 ,而 在 游戏 失败 时 给 出 负 回 报 ,其 他 时 候 为 零 回 报 。agent 的 任务 
就 是 从 这 个 非 直接 的 、 有 延迟 的 回报 中 学 习 , 以 便 后 续 的 动作 产生 最 大 的 累积 回报 。 本 章 着 重 
介绍 一 个 称 为 @ 学 习 的 算法 , 它 可 从 有 延迟 的 回报 中 获取 最 优 控制 策略 ,即使 agent 没有 有 
关 其 动作 会 对 环境 产生 怎样 的 效果 的 先 验 知识 。 增 强 学 习 与 动态 规划 (dynamic program- 
ming) 算 法 有 关 , 后 者 常 被 用 于 解决 最 优化 问题 。 


13.1 简介 


考虑 建造 一 个 可 学 习 的 机 器 人 。 该 机 器 人 (或 agent) 有 一 些 传感器 可 以 观察 其 环境 的 状 
态 (state) 并 能 做 出 一 组 动作 (aetion) 改 变 这 些 状态 。 例 如 ,移动 机 器 人 具有 镜头 和 声 纳 等 传 感 
器 ,并 可 以 做 出 “ 直 走 ”和 “转弯 "等 动作 。 学 习 的 任务 是 获得 一 个 控制 策略 (policy), 以 选择 能 
达到 目的 的 行为 。 例 如 ,此 机 器 人 的 任务 是 在 其 电池 电量 转 低 时 找到 充电 器 进行 充电 。 

本 章 关心 的 就 是 :这 样 的 agent 怎样 在 其 环境 中 做 实验 并 成 功 地 学 习 到 控制 策略 。 这 里 
假定 agent 的 目标 可 被 定义 为 一 个 回报 (reward) 函 数 , 它 对 agent 从 不 同 的 状态 中 选取 不 同 的 
动作 赋予 一 个 数字 值 , 即 立即 支付 (immediate payoff) 。 例 如 ,寻找 电池 充电 器 的 目标 可 用 这 样 
的 回报 函数 指定 :对 那些 能 够 连接 到 充电 器 的 状态 -动作 转换 赋予 正 回报 (如 , + 100) ,对 其 他 
的 状态 动作 转换 赋予 零 回报 。 这 个 回报 函数 可 内 艇 在 机 器 人 中 ;或 者 只 有 外 部 施 教 者 知道 ,由 
它 对 机 器 人 的 每 个 动作 给 出 回报 值 。 机 器 人 的 任务 是 执行 一 系列 动作 ,观察 其 后 果 ,再 学 习 控 
制 策略 。 我 们 希望 的 控制 策略 是 能 够 从 任何 初始 状态 选择 恰当 的 动作 ,使 agent 随时 间 的 累 
积 获得 的 回报 达到 最 大 。 这 个 机 器 人 学 习 问 题 的 一 般 框架 在 图 13-1 中 概要 列 出 。 

从 图 13-1 中 可 清楚 地 看 到 ,学习 控制 策略 以 使 累积 回报 最 大 化 这 个 问题 非常 普遍 , 它 覆 
盖 了 机 器 人 学 习 任 务 以 外 的 许多 问题 。 一 般 来 说 ,此 问题 是 一 个 通过 学 习 来 控制 序列 过 程 的 
间 题 。 例 如 ,生产 优化 问题 ,其 中 要 选择 一 系列 的 生产 动作 ,而 使 生产 出 的 货物 减 去 其 成 本 达 
到 最 大 化 。 再 如 一 些 序列 调度 问题 , 像 在 一 个 大 城市 中 选择 出 租车 运载 乘客 ,其 中 回报 画 数 为 
乘客 等 待 的 时 间 和 出 租车 队 的 整体 油耗 。 一 般 来 说 ,我 们 感 兴趣 的 问题 类 型 是 :一 个 agent 需 
要 通过 学 习 和 选择 动作 来 改变 环境 状态 ,其 中 使 用 了 一 个 累积 回报 函数 来 定义 任意 动作 序列 
的 质量 。 在 此 类 问题 中 。 我 们 考虑 几 种 特殊 的 框架 ,包括 :动作 是 否 具有 确定 性 的 输出 ;agent 
是 否 有 其 动作 对 环境 的 效果 的 先 验 知识 。 

在 本 书 前 面 ,我 们 已 经 接触 到 了 通过 学 习 来 控制 序列 过 程 的 问题 。 在 第 11.4 节 中 ,我 们 
讨论 了 用 基于 解释 的 方法 学 习 规则 ,以 控制 问题 求解 中 的 搜索 。 其 中 agent 的 目的 是 在 搜索 
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其 目标 状态 的 每 一 步 从 可 选 动作 中 做 出 抉择 。 本 章 讨论 的 技术 不 同 于 第 11.4 节 , 因 为 这 里 考 
虑 的 问题 中 行为 可 能 有 非 确定 性 的 输出 ,而 且 学 习 器 缺少 描述 其 行为 输出 的 领域 理论 。 在 第 
1 章 ,我 们 讨论 了 在 西洋 双 陆 棋 对 弈 中 的 学 习 问 题 。 其 中 概述 的 学 习 方 法 非常 类 似 于 本 章 的 
学 习 方 法 。 实 际 上 本 章 的 增强 学 习 算 法 的 一 个 最 成 功 的 应 用 就 是 类 似 的 博弈 问题 。Tesauro 
(1995) 描 述 的 TD-GAMMON 程序 , 它 使 用 增强 学 习 成 为 世界 级 的 西洋 双 陆 棋 选 手 。 这 个 程序 
经 过 了 150 万 个 自生 成 的 对 弈 训练 后 ,已 近似 达到 了 人 类 最 佳 选手 的 水 平 ,并 且 在 国际 西洋 双 
陆 棋 联 赛 中 与 顶尖 棋 手 对 弈 取得 了 良好 的 成 绩 。 





a a a 
0 l 2 
30 ~ 31 一 一 全 Se 
ro r] = 72 


目标 : 学 习 选 择 动作 使 下 式 最 大 化 
AYAY n+ 其 中 0<Y<]/ 


此 agent 生存 的 环境 被 描述 为 某 可 能 的 状态 集合 S。 它 可 执行 任意 的 可 能 动作 集合 4。 每 次 在 某 状态 s 下 执 
行 一 动作 a,, 此 agent 会 收 到 一 个 实 值 回报 r,, 它 表示 此 状态 - 动作 转换 的 立即 值 。 如 此 产生 了 一 系列 的 状态 
si 动作 a; 和 立即 回报 r; 的 集合 ,如 图 所 示 。Agent 的 任务 是 学 习 一 个 控制 策略 r: S-> 4 , 它 使 这 些 回报 的 和 
的 期 望 值 最 大 化 ,其 中 后 面 的 回报 值 随 着 他 们 的 延迟 指数 减 小 


图 13-1 一 个 与 环境 交互 的 agent 


学 习 控 制 策略 以 选择 动作 的 问题 在 某 种 程度 上 类 似 于 其 他 章 讨 论 过 的 函数 逼近 问题 。 这 
里 待 学 习 的 目标 函数 是 控制 策略 x :5->4。 它 在 给 定 当 前 状态 S 集合 中 的 s 时 ,从 集合 4 中 
输出 一 个 合适 的 动作 c。 然 而 ,增强 学 习 问 题 与 其 他 的 函数 逼近 问题 有 几 个 重要 不 同 : 

@ 延迟 回报 (delayed reward) agent 的 任务 是 学 习 一 个 目标 函数 x。 它 把 当前 状态 s 映 

射 到 最 优 动作 a = x(s)。 在 前 面 章节 中 ,我 们 总 是 假定 在 学 习 x 这 样 的 目标 函数 时 ,每 
个 训练 样 例 是 序 偶 的 形式 (*，r(s))。 然 而 在 增强 学 习 中 ,训练 信息 不 能 以 这 种 形式 得 
到 。 相 反 , 施 教 者 只 在 agent 执行 其 序列 动作 时 提供 一 个 序列 立即 回报 值 ,因此 agent 
面临 一 个 时 间 信 用 分 配 (temporal credit assignment ) 的 问题 :确定 最 终 回报 的 生成 应 归 
功 于 其 序列 中 哪 一 个 动作 。 

o Xk (exploration ) 在 增强 学 习 中 ,agent 通过 其 选择 的 动作 序列 影响 训练 样 例 的 分 
布 。 这 产生 了 一 个 问题 : 哪 种 实验 策略 可 产生 最 有 效 的 学 习 。 学 习 器 面临 的 是 一 个 权 
衡 过 程 :是 选择 探索 未 知 的 状态 和 动作 (收集 新 信息 ) ,还 是 选择 利用 它 已 经 学 习 过 、 会 
产生 高 回报 的 状态 和 动作 (使 累积 回报 最 大 化 )。 

o 部 分 可 观察 状态 (partially observable states) ”虽然 为 了 方便 起 见 , 可 以 假定 agent 传 感 
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器 在 每 一 步 可 感知 到 环境 的 全 部 状态 ,但 在 实际 的 情况 下 传感器 只 能 提供 部 分 信息 。 
例如 : 带 有 前 向 镜头 的 机 器 人 不 能 看 到 它 后 面 的 情况 。 在 此 情况 下 可 能 需要 结合 考虑 
其 以 前 的 观察 以 及 当前 的 传感器 数据 以 选择 动作 ,而 最 佳 的 策略 有 可 能 是 选择 特定 的 
动作 以 改进 环境 可 观察 性 。 

o 终生 学 习 (life-long learning) 不 像 分 离 的 函数 逼近 任务 ,机 器 人 学 习 问 题 经 常 要 求 此 
机 器 人 在 相同 的 环境 下 使 用 相同 的 传感器 学 习 多 个 相关 任务 。 怎 样 在 窜 小 的 走廊 中 行 
走 以 及 怎样 从 激光 打印 机 中 取得 打印 纸 等 。 这 使 得 有 可 能 使 用 先前 获得 的 经 验 或 知识 
在 学 习 新 任务 时 减 小 样本 复杂 度 。 


13.2 学 习 任 务 


在 本 节 中 ,我 们 把 学 习 序 列 控制 策略 的 问题 更 精确 地 形式 化 ,可 以 选择 许多 种 形式 化 的 方 
法 。 例 如 ,可 假定 agent 的 行为 是 确定 性 或 非 确定 性 的 ;假定 agent 可 以 预测 每 一 个 行为 所 产 
生 的 状态 或 不 能 预测 ;假定 agent 是 由 外 部 专家 通过 示例 最 优 动作 序列 来 训练 的 或 必须 通过 
执行 自己 选择 的 动作 来 训练 。 这 里 我 们 基于 马尔 可 夫 ( Markov) 决 策 过 程 定义 该 问题 的 一 般 
形式 。 这 种 问题 形式 遵循 图 13-1 示例 的 问题 。 

在 马尔 可 夫 决 策 过 程 (Markov decision process, MDP) 中 ,agent 可 感知 到 其 环境 的 不 同 状态 集 
合 5, 并 且 有 它 可 执行 的 动作 集合 4 。 在 每 个 离散 时 间 步 iagent 感知 到 当前 状态 *% ,选择 当前 
动作 a, 并 执行 它 。 环 境 响 应 此 agent, 给 出 回报 r, = r(s,，a,), 并 产生 一 个 后 继 状态 s, ,1 = 6(s,， 
wa)。 这 里 函数 8 和 是 环境 的 一 部 分 ,agent 并 不 知道 。 在 MDP 中 ,函数 6(s,, a) r(s,, a) 
只 依 束 于 当前 状态 和 动作 ,而 不 依赖 于 以 前 的 状态 和 动作 。 本 章 中 我 们 只 考虑 S 和 4 为 有 限 的 
情形 。 一 般 来 说 ,6 和 + 可 为 非 确定 性 函数 ,但 我 们 首先 从 确定 性 的 情形 开始 。 

agent 的 任务 是 学 习 一 个 策略 r: S 一 4 , 它 基 于 当前 观察 到 的 状态 s 选择 下 一 步 动作 ww， 
即 x(s,) = a,。 如 何 精确 指定 此 agent 要 学 习 的 策略 x 呢 ? 一 个 明显 的 方法 是 要 求 此 策略 对 
机 器 人 产生 最 大 的 累积 回报 。 为 精确 地 表述 这 个 要 求 , 我 们 定义 :通过 遵循 一 个 任意 策略 r 
从 任意 初始 状态 s 获得 的 累积 值 V*(s,) 为 : 

Vi(s) Ti + Yar + Yra + 
= > Yr; 

其 中 ,回报 序列 rm ,; 的 生成 是 通过 由 状态 5, 开始 并 重复 使 用 策略 r 来 选择 上 述 的 动作 (如 ， 
a, = 1(s,), 041 = x(s+1) 等 )。 这 里 0<7y<1l 为 一 常量 , 它 确 定 了 延迟 回报 与 立即 回报 的 相对 比 
例 。 确 切 地 讲 , 在 未 来 的 第 i 时间 步 收 到 的 回报 被 因子 7 以 指数 级 折算 。 注 意 如 果 设 置 7 = 0， 
那么 只 考虑 立即 回报 。 当 y 被 设置 为 接近 1 的 值 时 ,未 来 的 回报 相对 于 立即 回报 有 更 大 的 重要 
程度 。 

由 式 (13.1) 定 义 的 量 V*(s) 常 被 称 为 由 策略 x 从 初始 状态 获得 的 折算 累积 回报 (dis- 
counted cumulative reward)。 把 未 来 的 回报 相对 于 立即 回报 进行 折算 是 合理 的 ,因为 在 许多 情 
况 下 ,我 们 希望 获得 更 快 的 回报 。 不 过 ,其 他 的 整体 回报 定义 也 被 研究 过 。 例 如 :有 限 水 平 回 


报 (finite horizon reward ) 定 义 为 Dy, ors , 它 计 算 有 限 的 h 步 内 回报 的 非 折 算 和 。 另 一 种 
定义 方式 是 平均 回报 (average raward ) :limp-a + Df orio CERK agent 整个 生命 期 内 


(13.1) 
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每 时 间 步 的 平均 回报 。 本 章 只 限于 考虑 式 (13.1) 定 义 的 折算 回报 。Mahadevan(1996) 讨 论 了 
当 优 化 准则 为 平均 回报 时 的 增强 学 习 。 
现在 可 以 精确 陈述 agent 的 学 习 任务 。 我 们 要 求 agent 学 习 到 一 个 策略 x ,使 得 对 于 所 有 
状态 s, V"(s) 为 最 大 。 此 策略 被 称 为 最 优 策 略 (optimal policy ) ,并 用 x" 来 表示 。 
x * = argmaxV"(s),( Ws) (13.2) 


BAR BATRA BV" (EE V*(s)o V* (5) 给 出 了 当 agent 从 状态 
s 开始 时 可 获得 的 最 大 折算 累积 回报 , 即 从 状态 s 开始 遵循 最 优 策略 时 获得 的 折算 累积 回报 。 

为 了 说 明 这 些 概 念 ,图 13-2 的 上 方 显 示 了 一 个 简单 的 格 状 世界 环境 。 此 图 中 的 6 个 方 格 
代表 agent 的 6 种 可 能 的 状态 或 位 置 。 图 中 每 个 箭头 代表 agent 可 采取 的 动作 ,从 一 个 状态 移 
动 到 另 一 个 。 与 每 个 箭头 相关 联 的 数值 表示 ,如 果 agent 执行 相应 的 状态 动作 转换 可 收 到 的 
立即 回报 r(s,a)。 注 意 ,在 这 个 特定 环境 下 ,所 有 的 状态 动作 转换 ,除了 导向 状态 G 的 以 外 ， 
都 被 定义 为 0。 为 便于 讨论 ,可 将 状态 G 看 作 是 目标 状态 ,因为 agent 可 接受 到 回报 的 惟一 方 
法 是 进入 此 状态 。 还 要 注意 在 此 环境 下 ,agent 一 旦 进入 状态 G, 它 可 选 的 动作 只 能 是 留 在 该 
状态 中 。 因 此 ,我 们 称 G 为 吸收 状态 (absorbing state)。 





每 个 方 格 代表 一 个 不 同 的 状态 ,每 个 箭头 代表 一 个 不 同 的 动作 。 立 即 回报 函数 把 进入 目标 状态 6 的 回报 赋予 
100, 其 他 的 赋予 0。 V*'(s) 和 0(s，a) 的 值 来 自 于 "(*，a) 以 及 折算 因子 y = 0.9。 对 应 于 最 大 Q 值 的 动作 的 
一 个 最 优 策 略 也 显示 在 图 中 

图 13-2 说 明 @ 学 习 的 基本 概念 的 一 个 简单 的 确定 性 世界 
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我 们 已 经 定义 了 状态 ,动作 和 立即 回报 ,只 要 再 选择 折算 因子 y 的 值 ,就 可 以 确定 最 优 策略 
r* 和 它 的 值 函数 V* (s) 了 。 在 这 里 我 们 选择 y = 0.9。 图 13-2 的 下 方 显 示 了 在 此 设 定 下 的 一 
种 最 优 策略 (还 有 其 他 的 最 优 策 略 ) 。 与 其 他 策略 一 样 ,该 策略 确切 地 指定 了 agent 在 任意 给 定 状 
态 下 应 选择 的 一 个 动作 。 如 所 想像 的 那样 ,该 最 优 策略 把 agent 以 最 短路 径 导向 状态 G。 

图 13-2 的 右边 的 图 显示 每 个 状态 的 V* 值 。 例 如 :考虑 此 图 的 右 下 角 的 状态 。 此 状态 的 
y* 值 为 100, 因 为 在 此 状态 下 最 优 策略 会 选择 “向 上 ”的 动作 ,从 而 得 到 立即 回报 100。 然 后 ， 
agent 会 留 在 吸收 状态 ,不 再 接 到 更 多 的 回报 。 同 样 ,中 下 方 的 状态 的 V* 值 为 90。 这 是 因为 
最 优 策略 会 使 agent 从 这 里 向 右 移动 (得 到 为 0 的 立即 回报 ) ,然后 向 上 (生成 为 100 的 立即 回 
报 )。 这 样 ,此 状态 的 折算 回报 为 : 

0+7y100+720+730+... = 90 

回忆 V* 的 定义 , 它 是 在 无 限 未 来 上 的 打算 回报 和 。 在 这 个 特定 的 环境 下 ,一 旦 agent 到 

达 了 吸收 状态 G, 其 无 限 未 来 将 留 在 此 状态 中 并 获得 0 回报 。 


13.3 Q 学习 


一 个 agent 在 任意 的 环境 中 如 何 能 学 到 最 优 的 策略 x “ ? 直接 学 习 函 数 r": SA 很 困 
难 , 因 为 训练 数据 中 没有 提供 (*，c 形式 的 训练 样 例 。 作 为 替代 ,惟一 可 用 的 训练 信息 是 立即 
回报 序列 r(siy ci),i= 0,1,2...。 如 我 们 将 看 到 的 ,给 定 了 这 种 类 型 的 训练 信息 ,更 容易 的 是 
学 习 一 个 定义 在 状态 和 动作 上 的 数值 评估 函数 ,然后 以 此 评估 函数 的 形式 实现 最 优 策略 。 

Agent 应 尝试 学 习 什 么 样 的 评估 函数 ? 很 明显 的 一 个 选择 是 V*。 只 要 当 V* (s1)> 
V*(s2) 时 ,agent 认为 状态 sı 优 于 ss, 因 为 从 si 中 可 得 到 较 大 的 立即 回报 。 当 然 agent MH 
略 要 选择 的 是 动作 而 非 状 态 。 然 而 在 合适 的 设 定 中 使 用 V* 也 可 选择 动作 。 在 状态 s 下 的 最 
优 动 作 是 使 立即 回报 r(s,a) 加 上 立即 后 继 状 态 的 Y“* 值 (被 7 折算 ) 最 大 的 动作 ao 

x*(s) = argmax[ r(s,a) + ¥V"(d(s,a))] (13.3) 

回忆 5(s,a) 代 表 应 用 动作 a 到 状态 s 的 结果 状态 。 因 此 ,agent 可 通过 学 习 了“ 获得 最 优 策略 
的 条 件 是 : 它 具 有 立即 回报 函数 + 和 状态 转换 函数 8 的 完美 知识 。 当 agent 得 知 了 外 界 环境 用 来 响 
应 动作 的 函数 r 和 8 的 完美 知识 , 它 就 可 用 式 (13.3) 来 计算 任意 状态 下 的 最 优 动作 。 

遗憾 的 是 ,只 在 agent 具有 r 和 完美 知识 时 ,学 习 V* 才 是 学 习 最 优 策略 的 有 效 方法 。 这 要 
求 它 能 完美 预测 任意 状态 转换 的 立即 结果 ( 即 立 即 回报 和 立即 后 续 )。 在 许多 实际 的 问题 中 ,比如 
机 器 人 控制 ,agent 以 及 它 的 程序 设计 者 都 不 可 能 预先 知道 应 用 任意 动作 到 任意 状态 的 确切 输出 。 
例如 ,对 于 一 个 用 手臂 铲 士 的 机 器 人 , 当 结果 状态 包含 土 块 的 状态 时 ,如 何 描述 6 函数 ? 因此 当 56 
或 ; 都 未 知 时 ,学 习 V* 是 无 助 于 选择 最 优 动作 的 ,因为 agent 不 能 用 式 (13.3) 进 行 评估 。 在 更 一 般 
的 选择 中 ,agent 应 使 用 什么 样 的 评估 函数 呢 ? 下 一 节 定义 的 评估 函数 @ 提供 了 答案 。 


13.3.1 Q 函数 
评估 函数 0(s,a) 定 义 为 : 它 的 值 是 从 状态 s 开始 并 使 用 a 作为 第 一 个 动作 时 的 最 大 折 
算 累 积 回报 。 换 言 之 , 8 的 值 为 从 状态 s 执行 动作 a 的 立即 回报 加 上 以 后 遵循 最 优 策略 的 值 


(用 > 折算 )。 
Q(s,a) = r(s,a) + YV*(8(s,a)) (13.4) 
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注意 , 0(s,a) 正 是 式 (13.3) 中 为 选择 状态 ;上 的 最 优 动 作 a 应 最 大 化 的 量 ,因此 可 将 

式 (13.3) 重 写 为 0(s,a) 的 形式 : 
m*(s) = argmaxQ(s,a) (13.5) 

重 写 该 式 为 什么 很 重要 ? 因为 它 显示 了 如 果 agent 学 习 0 函数 而 不 是 V* OM, PRA 
缺少 函数 + 和 6 的 知识 时 ,agent 也 可 选择 最 优 动 作 。 式 (13.5) 清 楚 地 显示 出 ,agent 只 须 考虑 
其 当前 的 状态 s 下 每 个 可 用 的 动作 a ,并 选择 其 中 使 0(s ,a) 最 大 化 的 动作 。 

这 一 点 开始 看 起 来 令 人 惊奇 ,只 需 对 当前 的 状态 的 0 的 局 部 值 重复 做 出 反应 ,就 可 选择 
到 全 局 最 优化 的 动作 序列 ,这 意味 着 agent 不 须 进行 前 脆性 搜索 ,不 须 明 确 地 考虑 从 此 动作 得 
到 的 状态 ,就 可 选择 最 优 动作 。Q@ 学 习 的 美妙 之 处 部 分 在 于 其 评估 函数 的 定义 精确 地 拥有 此 
属性 :当前 状态 和 动作 的 0 值 在 单个 的 数值 中 概括 了 所 有 需要 的 信息 ,以 确定 在 状态 s 下 选 
择 动作 a 时 在 将 来 会 获得 的 折算 累积 回报 。 

为 说 明 这 一 点 , 见 图 13-2。 其 中 在 简单 的 格子 世界 中 显示 了 每 个 状态 和 动作 的 Q 值 。 
注意 每 个 状态 动作 的 转换 的 0 值 等 于 此 转换 的 > 值 加 上 结果 状态 的 V* 值 (用 折算 )。 还 
要 注意 图 中 显示 的 最 优 策略 对 应 于 选择 有 最 大 的 0 值 的 动作 。 


13.3.2 一 个 学 习 Q 的 算法 


学 习 0 函数 对 应 于 学 习 最 优 策略 。Q 怎样 才能 被 学 习 到 呢 ? 
关键 在 于 要 找到 一 个 可 靠 的 方法 ,只 在 时 间 轴 上 展开 的 立即 回报 序列 的 基础 上 估计 训练 值 。 
这 可 通过 迭代 有 逼 近 的 方法 完成 。 为 理解 怎样 完成 这 一 过 程 ,注意 0 和 V ’ 之 间 的 密切 联系 : 
V"(s)= maxQ(s, a‘) 
用 它 可 重 写 式 (13.4) 为 : 
Q(s,a) = r(s,a) + y maxQ(d(s,a),a’) (13.6) 
这 个 Q 函数 的 递归 定义 提供 了 迭代 通 近 0 算法 的 基础 (Watkins 1989)。 为 描述 此 算法 ， 
我 们 将 使 用 符号 0 来 指 代 学 习 器 对 实际 0 函数 的 估计 ,或 者 说 假设 。 在 此 算法 中 学 习 器 通 
过 一 个 大 表 表 示 其 假设 0 ,其 中 对 每 个 状态 - 动作 对 有 一 表 项 。 状 态 -IEX Cs, a) HRM 
中 存储 了 0(s,a) 的 值 , 即 学 习 器 对 实际 的 但 未 知 的 0(s,a) 值 的 当前 假设 。 此 表 可 被 初始 
填充 为 随机 值 ( 当 然 , 如 果 认 为 是 全 0 的 初始 值 更 易于 理解 )。Agent 重复 地 观察 其 当前 的 状 
AS *, 选 择 某 动作 a, 执 行 此 动作 ,然后 观察 结果 回报 r = r(s,a) 以 及 新 状态 s' = 6(s,a)。 然 
后 agent 遵循 每 个 这 样 的 转换 更 新 0(s, a) 的 表 项 ,按照 以 下 的 规则 
Q(s,a) — r + y maxQ(s', a’) (13.7) 
注意 此 训练 法 则 使 用 agent 对 新 状态 * 的 当前 Ô 值 来 精 化 其 对 前 一 状态 * 的 0(s,a) 估 
计 。 此 训练 规则 是 从 式 (13.6) 中 得 到 的 ,不 过 此 训练 值 考虑 agent 的 近似 Q ,而 式 (13.6) 应 用 
到 实际 的 0 函数 。 注 意 虽然 式 (13.6) 以 函数 6(s ,a) 和 r(s,a) 的 形式 描述 0 ,但 agent 不 需 
知道 这 些 一 般 函 数 来 应 用 式 (13.7) 的 训练 规则 。 相 反 , 它 在 其 环境 中 执行 动作 ,并 观察 结果 状 
态 和 回报 +。 这 样 , 它 可 被 看 作 是 在 s Ma 的 当前 值 上 采样 。 
上 述 对 于 确定 性 马尔 可 夫 决 策 过 程 的 0 学 习 算法 在 表 13-1 中 被 更 精确 地 描述 。 使 用 此 
算法 ,agent 估计 的 0 在 极限 时 收敛 到 实际 0 函数 ,只 要 系统 可 被 建 模 为 一 个 确定 性 马尔 可 
夫 决 策 过 程 ,回报 函数 r 有 界 , 并 且 动作 的 选择 可 使 每 个 状态 - 动作 对 被 无 限 频繁 的 访问 。 
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R131 在 确定 性 回报 和 动作 假定 下 的 OF DME 


Q 学 习 算 法 
对 每 个 s a 初始 化 表 项 0(s,a) 为 0 
观察 当前 状态 s 
一 直 重 复 做 : 
o 选择 一 个 动作 a 并 执行 它 
@ 接收 到 立即 回报 + 
@ 观察 新 状态 ? 
@ 对 0(*,c) 按 照 下 式 更 新 表 项 : 


O(s,a)<r+ 7 maxQ(s’, a’) 


@ s«s' 


注 ; 折算 因子 7 为 任意 常 重 满足 0<7<1。 


13.3.3 举例 


为 说 明 0 学 习 算 法 的 操作 过 程 ,考虑 图 13-3 显示 的 某 个 agent 采取 的 一 个 动作 和 对 应 的 
对 Ô 的 精 化 。 在 此 例 中 ,agent 在 其 格子 世界 中 向 右 移动 一 个 单元 格 ,并 收 到 此 转换 的 立即 回 
报 为 0。 然 后 它 应 用 训练 规则 式 (13.7) 来 对 刚 执 行 的 状态 - 动作 转换 精 化 其 O 的 估计 。 按 
照 训 练 规则 ,此 转换 的 新 0 估计 为 收 到 的 回报 (0) 与 用 yY(0.9) 折 算 的 与 结果 状态 相关 联 的 最 
高 0 值 (100) 的 和 。 





QO(S1, Gright) — r + y max Q(s2,a') 
a 


< 04+0.9 max(66, 81, 100} 
«+ 90 
左边 的 图 显示 了 机 器 人 及 的 初始 状态 s1, 以 及 初始 假设 中 几 个 相关 的 O 值 。 例 如 , Ô Csi, Gigs) = 72.9, EF 
arsh 指 代 民 向 右 移动 的 动作 。 当 机 器 人 执行 动作 sm 后 , 它 收 到 立即 回报 r = 0, 并 转换 到 状态 ;2。 然 后 它 基 
于 其 对 新 状态 s 的 0 估计 更 新 其 0(si,arnw) 估 计 。 这 里 7 = 0.9 
图 13-3 在 执行 单个 动作 后 对 Q 的 更 新 


每 次 agent 从 一 旧 状 态 前 进 到 一 新 状态 , 0 学 习 会 从 新 状态 到 旧 状 态 向 后 传播 其 0 fii 
计 。 同 时 ,agent 收 到 的 此 转换 的 立即 回报 被 用 于 扩大 这 些 传播 的 6 值 。 
考虑 将 此 算法 应 用 到 格子 世界 中 ,其 回报 函数 显示 在 图 13-2 中 ,其 中 的 回报 值 除了 进入 
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目标 状态 的 以 外 都 为 0。 因 为 此 世界 包含 一 个 吸收 目标 状态 。 我 们 可 假定 训练 过 程 包含 一 系 
列 的 情节 (episode) 。 在 每 个 情节 中 ,agent 从 某 随机 选择 的 状态 开始 执行 动作 直到 其 到 达 吸 收 
目标 状态 。 这 时 情节 结束 ,然后 agent 被 运输 到 一 个 随机 选择 的 新 初始 状态 ,开始 下 一 个 情 
节 。 : 
在 此 例 中 , 当 应 用 0 学习 算 法 时 ,0 的 值 是 如 何 演 化 的 ? 因为 初始 的 0 值 都 为 0, agent 
不 会 改变 任意 Ô 表 项 ,直到 它 恰好 到 达 目 标 状态 并 且 收 到 非 零 的 回报 。 这 会 导致 只 有 通 向 目 
标 状态 的 转换 的 0 值 被 精 化 。 在 下 一 个 情节 中 ,如 果 经 过 这 些 与 目标 状态 相 邻 的 状态 ,其 非 
0 的 0 值 会 导致 与 目的 相差 两 步 的 状态 中 值 的 变化 ,依次 类 推 。 给 定 足够 数量 的 训练 情节 ， 
信息 会 从 有 非 零 回报 的 转换 向 后 传播 到 整个 状态 - 动作 空间 ,最 终 得 到 一 个 0 表 。 其 中 的 0 
值 如 图 13-2 所 示 。 

在 下 一 节 ,我 们 证 明了 在 一 定 条 件 下 表 13-1 的 0 学 习 算 法 会 收敛 到 正确 的 O 函数 。 首 
先 ,考虑 此 0 学 习 算 法 的 两 个 特点 ,这 两 个 特点 是 在 回报 非 负 且 所 有 Ô 值 初 始 化 为 0 的 任意 
确定 性 的 MDP 中 都 普遍 存在 的 。 第 一 个 属性 是 ,在 上 述 条 件 下 @ 值 在 训练 中 永远 不 会 下 降 。 
更 形式 化 地 讲 , 令 0,(s*,a) 表 示 训 练 过 程 的 第 n 次 循环 后 学 习 到 的 @(s,a) 值 ( 即 agent 所 采 
取 的 第 = 个 状态 -动作 转换 之 后 ), 则 有 : 

(Vs,a.n)0,41(s,a)20,(s,a) 
第 二 个 普遍 特点 是 在 整个 训练 过 程 中 ,每 个 @ 值 将 保持 在 零 和 真实 0 AKA: 
(Vs,a,n) 0<0,(s,4)<Q(s,a) 


13.3.4 ”收敛 性 


E 13-1 的 算法 是 否 会 收敛 到 一 个 等 于 真实 0 函数 的 0 值 ? 在 特定 条 件 下 ,回答 是 肯定 
的 。 首 先 ,需要 假定 系统 为 一 确定 性 的 MDP。 其 次 ,必须 假定 立即 回报 值 都 是 有 界 的 , 即 存在 
某 正 常数 c, 对 所 有 状态 s 和 动作 a,1r(s，o)1< c。 第 三 ,agent 选择 动作 的 方式 为 它 无 限 频 
繁 地 访问 所 有 可 能 的 状态 - 动作 对 。 这 个 条 件 意味 着 如 果 动 作 a 是 从 状态 s 出 发 的 一 个 合 
的 动作 ,那么 随时 间 的 累计 ,agent 的 动作 序列 逐渐 达到 无 限 长 。agent 必须 以 非 0 的 频率 重复 
地 从 状态 s 执行 动作 a。 注 意 ,这 些 条 件 在 某 种 程度 上 很 一 般 , 但 有 时 又 相当 严格 。 它 们 描述 
了 比 前 一 节 所 举 的 例子 中 更 一 般 的 设 定 ,因为 它们 允许 环境 有 任意 的 正 或 负 回报 ,并 且 环 境 中 
可 有 任意 数量 的 状态 - 动作 转换 可 产生 非 零 回 报 。 这 些 条 件 的 严格 性 在 于 它 要 求 agent 无 限 
频繁 的 访问 每 个 不 同 的 状态 - 动作 转换 。 这 在 非常 大 的 (甚至 是 连续 的 ) 领 域 中 是 很 强 的 假 
定 。 我 们 将 在 后 面 讨论 更 强 的 收敛 结果 。 然 而 本 节 描 述 的 结果 将 为 理解 0 学 习 的 运行 机 制 
提供 直观 的 理解 。 

对 收敛 性 证 明 的 关键 思路 在 于 ,有 最 大 误差 的 表 项 0 (s, a) 必 须 在 其 更 新 时 将 误差 按 因 
子 y 减 小 。 原 因 在 于 它 的 新 值 的 一 部 分 依赖 于 有 误差 倾向 的 @ 估计 ,其 余 的 部 分 依赖 于 无 误 
差 的 观察 到 的 立即 回报 ro 

定理 13.1: 确定 性 马尔 可 夫 决 策 过 程 中 的 QO 学习 的 收敛 性 ”考虑 一 个 0 学 习 agent, 在 一 个 

有 有 界 回报 (VY s,a)1r(s,a)1<<c 的 确定 性 MDP 中 , 0 学 习 agent 使 用 式 (13.7) 的 训练 规则 ,将 

表 0(s,a) 初 始 化 为 任意 有 限 值 ,并 且 使 用 折算 因子 y,0<7Y<1。 F 0,(s,a) 代 表 在 第 n 次 更 新 

后 agent 的 假设 0(*,e)。 如 果 每 个 状态 -~ 动作 对 都 被 无 限 频繁 的 访问 ,那么 对 所 有 s Ma, 4 n> 

wm 时 Q,(s,a) RB 0(s,a)。 
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证 明 ; 因 为 每 个 状态 - 动作 转换 无 限 频繁 发 生 ,考虑 连续 的 区 间 ,其 中 每 个 状态 - 动作 转换 至 少 发 生 一 次 。 
所 需要 证 明 的 是 ,在 0 表 中 所 有 表 项 上 的 最 大 误差 在 每 个 这 样 的 连续 区 间 内 至 少 按 因子 7 减少 。0, 为 n KE 
新 后 agent 估计 的 0 值 表 。 令 An 为 0, 中 最 大 误差 , 即 : 
A, = max | 0,(s,a) - Q(s,a) | 
下 面 我 们 使 用 * 来 代表 8(s, ea), 现 在 对 在 第 n+ 1 次 迭代 中 更 新 的 任意 表 项 0,(s,a), 修 正 后 的 估计 
,+41(s,a) 的 误差 量 为 : 
| Onsi(s,a) ~ Q(s,a) 1=1(r+ y max Q,(s',a’)) - (r+ ¥ max Q(s',a")) | 
= 7y1 max Q,(s',a’) - max Q(s',a’) 1 
< y max | @,(s',a’) - Q(s',a’) | 
< 7 max | Q,(s",a") - Q(s", a") | 
l Onui(s,a) - O(s,a) is YA, 
上 面 的 第 三 行 从 第 二 行 中 导出 ,原因 是 对 任意 两 个 函数 fM 户 有 下 列 不 等 式 成 立 : 
| maxf\(a) ~ maxf2(a) |< max | fila) - fala) | 
从 第 三 行 到 第 四 行 的 推导 ,我 们 引入 了 一 个 新 变量 ”在 其 上 执行 最 大 化 。 其 合理 性 在 于 当 我 们 允许 附加 
的 变量 变化 时 ,此 最 大 值 只 可 能 更 大 或 至 少 是 相等 。 注 意 ,通过 引入 此 变量 ,我 们 获得 了 一 个 与 A 的 定义 匹配 
的 表达 式 。 
因此 ,对 任意 s 和 a, 更 新 后 的 站 , ,1(s,a) 的 误差 最 多 为 Ô, 表 中 最 大 误差 A, My 倍 。 在 初始 表 中 的 最 大 
误差 Au 是 有 界 的 ,因为 0o(s,a) 和 0(s,e) 的 值 对 所 有 s, a 都 有 界 。 现 在 ,在 每 个 s, a 都 被 访问 过 的 第 一 个 
区 间 内 ,此 表 中 最 大 的 误差 最 多 为 YAo。 在 下 个 区 间 后 ,误差 最 多 为 Ao 因为 每 个 状态 都 被 无 限 频繁 地 访 
问 ,这样 的 区 间 的 数目 是 无 限 的 ,因此 当 nokt A, +0. ERE. 


13.3.5 实验 策略 


注意 表 13-1 的 算法 没有 指定 agent 如 何 选择 动作 。 一 个 明显 的 策略 是 ,对 于 在 状态 s 的 
agent, 选 择 使 0(s, a) 最 大 化 的 动作 ,从 而 利用 其 当前 近似 的 @。 然 而 ,使 用 此 策略 存在 风 
险 ,agent 可 能 过 度 束 缚 到 在 早期 训练 中 有 高 Ô 值 的 动作 ,而 不 能 够 探索 到 其 他 可 能 有 更 高 什 
的 动作 。 实 际 上 ,上 面 的 收敛 性 定理 要 求 每 个 状态 - 动作 转换 无 限 频繁 地 发 生 。 显 然 ,如果 
agent 总 选择 使 当前 Ô (s, a) 最 大 的 动作 ,将 不 能 保证 无 限 频 繁 性 。 因 此 ,在 0 学 习 中 通常 使 
用 概率 的 途径 来 选择 动作 。 有 较 高 6 值 的 动作 被 赋予 较 高 的 概率 ,但 所 有 动作 的 概率 都 非 
0。 赋 了 予 这 种 概率 的 一 种 方法 是 : > 

k (s,a,) 


Plai e) = SY pe 
j 


其 中 P(ails ) 为 agent 在 状态 s 时 选择 动作 ui 的 概率 ,k > 0 为 一 常量 , 它 确定 此 选择 优 
先 考虑 高 0 值 的 程度 。 较 大 的 & 值 会 将 较 高 的 概率 赋予 超出 平均 @ 的 动作 ,致使 agent 利用 
它 所 学 习 到 的 知识 来 选择 它 认为 会 使 回报 最 大 的 动作 。 相 反 , 较 小 的 & 值 会 使 其 他 动作 有 和 较 
高 的 概率 ,导致 agent 探索 那些 当前 0 值 还 不 高 的 动作 。 在 某 些 情况 下 ,8 是 随 着 迭代 次 数 而 
变化 的 。 以 使 agent 在 学 习 的 早期 可 用 探索 型 策略 ,然后 逐步 转换 到 利用 型 的 策略 。 


13.3.6 更 新 序列 


上 面 收敛 性 定理 一 个 重要 性 暗示 在 于 , 0 学 习 不 需要 用 最 优 动 作 进 行 训练 ,就 可 以 收敛 
到 最 优 策略 。 实 际 上 ,只 要 每 步 的 训练 动作 完全 随机 选择 ,使 得 结果 训练 序列 无 限 频繁 的 访问 
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每 个 状态 - 动作 转换 ,就 可 以 学 习 到 0 函数 (以 及 最 优 策略 )。 这 一 事实 建议 改变 训练 转换 样 
例 的 序列 ,以 改进 训练 效率 而 不 危及 最 终 的 收敛 性 。 为 说 明 这 一 点 ,再 次 考虑 在 一 个 MDP 中 
有 单个 吸收 目标 状态 的 学 习 过 程 ,如 图 13-1 中 所 示 。 像 以 前 那样 ,假定 使 用 序列 化 的 情节 
(episode) 来 训练 agent。 对 每 个 情节 ,agent 被 放置 在 一 个 随机 初始 状态 ,然后 执行 动作 以 更 新 
其 0 表 , 直 到 它 到 达 吸 收 状态 。 然 后 通过 将 agent 从 目标 状态 转换 到 一 个 新 的 随机 初始 状态 
开始 一 个 新 的 训练 情节 。 如 前 面 指出 的 ,如 果 开 始 所 有 Ô 值 的 初始 化 为 0, 则 在 第 一 个 情节 
后 ,agent 的 0 表 中 只 有 一 个 表 项 改变 : 即 对 应 于 最 后 转换 到 目标 状态 的 表 项 。 如 果 在 第 二 个 
情节 中 ,agent 恰好 从 相同 的 随机 初始 状态 沿 着 相同 动作 序列 移动 , 则 另 一 表 项 变 为 非 0, 依 此 
类 推 。 如 果 重 复 地 以 相同 的 方式 运行 情节 AES 0 值 的 边缘 逐渐 向 右 移动 ,从 目标 状态 开始 ， 
每 个 情节 移动 到 一 个 新 的 状态 - 动作 转换 。 现 在 考虑 在 这 些 相同 的 状态 - 动作 转换 上 的 训 
练 , 但 对 每 个 情节 要 以 反 向 的 时 序 。 即 对 每 个 考虑 的 转换 应 用 式 (13.7) 中 相同 的 更 新 规则 ,但 
以 道 序 执行 这 些 更 新 。 这 样 ,在 第 一 个 情节 后 ,agent 会 沿 着 通 向 目标 的 路 径 对 每 个 转换 更 新 
Ô 估计 。 虽 和 然 这 个 训练 过 程 要 求 agent 在 开始 此 情节 训练 前 使 用 更 多 的 内 存 来 存储 整个 情 
节 , 但 它 显 然 会 在 更 少 的 循环 次 数 内 收敛 。 

改进 收敛 速率 的 第 二 个 策略 是 存储 过 去 的 状态 - 动作 转换 ,以 及 相应 收 到 的 立即 回报 , 然 
后 周期 性 地 在 其 上 重新 训练 。 开 始 可 能 会 认为 用 相同 的 转换 重新 训练 是 做 无 用 功 。 但 注意 到 
更 新 的 0(s,a) 值 是 由 后 继 状 态 = 6(s,a) 的 OCs’ ,a) 值 确定 的 。 因 此 ,如 果 后 续 的 训练 改 
ET 0(s,a) 值 其 中 一 个 ,在 转换 (s,a) 上 重 训练 会 得 到 0 (s,.a) 的 不 同 值 。 一 般 地 ,我 们 希 
望 重 放 旧 的 转换 相 比 于 从 环境 中 获得 新 转换 的 程度 取决 于 这 两 种 操作 在 特定 问题 领域 中 相对 
的 开销 。 例 如 ,在 机 器 人 导航 动作 的 领域 ,其 动作 执行 需要 数秒 的 时 间 ,而 从 外 部 世界 收集 新 
的 状态 - 动作 转换 的 延迟 会 比 在 内 部 重 放 以 前 观察 过 的 转换 的 开销 大 若干 数量 级 。 由 于 0 
学 习 通 常 要 求 成 千 上 万 的 训练 循环 才 收敛 ,这 种 差别 显得 十 分 重要 。 

注意 ,贯穿 在 上 述 讨论 中 的 两 个 假定 是 ,agent 不 知道 环境 用 来 生成 后 继 状 态 s' = 8(s,a) 
的 状态 转换 函数 8(s, a), 也 不 知道 生成 回报 的 函数 "(s,a)。 如 果 它 知道 了 这 两 个 函数 ,可 能 
会 有 更 多 有 效 的 方法 。 例 如 ,如 果 执 行 外 部 动作 开销 很 大 ,agent 可 以 简单 地 忽略 环境 ,在 其 内 
部 模拟 环境 ,有 效 生 成 模拟 动作 并 赋予 适当 的 模拟 回报 ,Sutton(1991) 描 述 了 Dyna 体系 结构 ， 
它 在 外 部 世界 中 执行 的 每 步 动作 后 执行 一 定数 量 的 模拟 动作 。Moore & Atkeson(1993) 描 述 
了 一 种 称 为 优先 级 扫除 (prioritized sweeping) 的 途径 ,选择 最 可 能 的 状态 来 更 新 下 一 个 0 ,这 
时 需要 关注 当前 状态 有 较 大 更 新 时 的 前 驱 状态 。Peng & Williams(1994) 描 述 了 一 个 相似 的 
途径 。 从 动态 规划 领域 来 的 大 量 有 效 算法 可 被 应 用 于 函数 $ 和 7 已 知 的 情况 。Kaelbling et 
al.(1996) 调 查 了 其 中 的 几 种 算法 。 


13.4 非 确定 性 回报 和 动作 


上 面 我 们 考虑 了 确定 环境 下 的 0 学 习 。 这 里 我 们 考虑 非 确定 性 情况 ,其 中 回报 函数 
r(s,a) 和 动作 转换 函数 S(s,a) 可 能 有 概率 的 输出 。 例 如 ,在 Tesauro(1995) 的 西洋 双 陆 模 对 
弈 程序 中 ,输出 的 动作 具有 固有 的 概率 性 ,因为 每 次 移动 需要 掷 仍 子 决 定 。 类 似 的 ,在 有 噪声 
的 传感器 和 效应 器 的 机 器 人 中 ,将 动作 和 回报 建 摸 为 非 确定 性 过 程 较为 合适 。 在 这 样 的 情况 
下 ,函数 5(;,a) 和 +r(s,a) 可 被 看 作 是 首先 基于 s 和 产生 输出 的 概率 分 布 ,然后 按 此 分 布 抽 
取 随 机 的 输出 。 当 这 些 概 率 分 布 主 要 依赖 于 s 和 a 时 ( 即 , 它 们 不 依赖 以 前 的 状态 和 动作 ) ,我 
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们 可 称 这 个 系统 为 非 确定 性 马尔 可 夫 决策 过 程 。 

本 节 中 我 们 把 处 理 确定 问题 的 0 学 习 算 法 扩展 到 非 确定 性 的 MDP。 为 达到 这 个 目的 ， 
我 们 回顾 在 确定 性 情况 下 的 算法 推导 步骤 ,在 需要 时 对 其 做 出 修正 。 

在 非 确定 性 情况 下 ,我 们 必须 先 重新 叙述 学 习 器 的 目标 ,以 考虑 动作 的 输出 不 再 是 确定 性 
的 情况 。 很 明显 ,一 种 一 般 化 的 方法 是 把 一 个 策略 x 的 值 V 重 定义 为 应 用 此 策略 时 收 到 折 
算 累 积 回 报 的 期 望 值 (在 这 些 非 确 定性 输出 上 )。 


V"(s,) = E[S > Frasil 


如 以 前 那样 ,回报 序列 r, ;是 从 状态 开始 遵循 策略 x 而 生成 的 。 注意 此 式 是 式 (13. 1) 
的 一 般 化 形式 ,后 者 覆盖 了 确定 性 的 情形 。 
如 以 前 那样 ,我们 定义 最 优 策略 rx" 为 所 有 状态 s 中 使 V"(s) 最 大 化 的 策略 +。 下 一 步 我 
们 把 先前 式 (13.4) 中 对 O 的 定义 一 般 化 ,再 一 次 运用 其 期 望 值 。 
Q(s,a)= E[r(s,a) + ¥V"(d(s,a))] 
= E[r(s,a)] + yYELV* (8(s,a))] (13.8) 
= E[r(s,a)] + 72P(s 1 s,a) V"(s') 


其 中 Plis, a) HERS s 采取 动作 a 会 产生 下 一 个 状态 为 ?的 概率 。 注 意 , 我 们 在 这 
里 已 经 使 用 了 P(s' ls,a) 来 改写 V* (6(s,a)) 的 期 望 值 ,所 用 的 形式 是 与 概率 性 的 6 的 可 能 
输出 相关 联 的 概率 。 
如 以 前 ,可 将 0 重新 表达 为 递归 的 形式 ; 
Q(s,a) = Elr(s,a)] + 7 XPC | s,a) max Q(s’ , a’) (13.9) 


它 是 式 (13.6) 的 一 般 化 形式 。 概 括 地 说 ,我 们 把 非 确定 性 情况 下 的 0Q(s,a) 简 单 地 重 定 
义 为 在 确定 性 情况 下 定义 的 量 的 期 望 值 。 

我 们 已 经 把 @ 的 定义 一 般 化 以 适应 非 确定 性 环境 下 的 函数 " 和 6, 现 在 所 需要 的 是 一 个 
新 训练 法 则 。 前 面 对 确 定性 情形 推导 的 训练 法 则 ( 式 (13.7)) 不 能 够 在 非 确 定性 条 件 下 收敛 。 
例如 ,考虑 一 个 非 确定 性 回报 函数 r(s,a), 每 次 重复 (s, a) 转换 时 产生 不 同 的 回报 。 这 样 , 即 
使 Ô 的 表 值 被 初始 化 为 正确 的 8 函数 ,训练 规则 仍 会 不 断 的 改变 0(s, a) 的 值 。 简 单 地 说 ， 
此 训练 规则 不 收敛 。 此 难题 的 解决 可 通过 修改 训练 规则 , 令 其 使 用 当前 @ 值 和 修正 的 估计 的 
一 个 衰减 的 加 权 平 均 。 用 Ô, 来 代表 第 n 次 循环 中 agent 的 估计 ,下 面 修改 后 的 训练 规则 足以 
保证 Ô 收敛 到 Q: 

Q,(s,a) (1 an) On-1(s,a) + alr + Y maxQ,_1(s’,a’)] (13. 10) 
其 中 : 


1 
On = 1 + visits, (ssa) (13.11) 


其 中 ,s Mo 为 第 n 次 循环 中 更 新 的 状态 和 动作 ,而且 visits, (s, a) 为 此 状态 - 动作 对 在 
这 n 次 循环 内 (包括 第 n 次 循环 ) 被 访问 的 总 次 数 。 

在 此 修正 了 的 规则 中 ,关键 思想 是 对 0 的 更 新 比 确定 性 情况 下 更 为 平 绥 。 注 意 ,如 果 在 
式 (13.10) 中 把 e, 设置 为 1, 可 得 到 确定 性 情形 下 的 训练 规则 。 使 用 较 小 的 a 值 , 该 项 可 以 被 
”当前 的 6(s,a) 均 化 以 产生 新 的 更 新 值 。 在 式 (13. 11) 中 a, 的 值 随 n 的 增长 而 减 小 ,因此 当 
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训练 进行 时 更 新 程度 逐渐 变 小 。 在 训练 中 以 一 定 速率 减 小 a, 可 以 达到 收敛 到 正确 0 函数 的 
目的 。 上 面 给 出 的 a 的 选择 是 满足 收 钱 性 条 件 的 选择 之 一 , 它 按照 下 面 的 定理 ( 见 Watkins 
& Dayan 1992), 
定理 13.2: 对 非 确定 性 马尔 可 夫 决策 过 程 的 0 学 习 收敛 性 ”考虑 一 个 0 学 习 agent 在 一 个 
有 有 界 的 回报 (Vs,a)1r(s,c)1<e 的 非 确定 性 MDP 中 ,此 Q 学 习 agent 使 用 式 (13. 10) 的 训练 
规则 。 初 始 化 表 0(s, a) 为 任意 有 限 值 ,并 且 使 用 折算 因子 0<y < 1, 令 n(i,s,a) 为 对 应 动作 a 
第 i 次 应 用 于 状态 ; 的 迭代 。 如 果 每 个 状态 - 动作 对 被 无 限 频繁 访问 ,0< a, < 1, 并 且 


， Destine =% Dlan Gna < @ 
那么 对 所 有 s Ma, mo 时， One ay OCs, a), 概率 为 1。 


虽然 Q 学 习 和 有 关 的 增强 算法 可 被 证 明 在 一 定 条 件 下 收敛 ,在 使 用 0 学 习 的 实际 系统 
中 ,通常 需要 数 以 千 计 的 训练 循环 来 达到 收敛 。 例 如 ,Tesauro 的 西 详 双 陆 棋 对 弈 使 用 150 万 
个 对 弈 棋局 进行 训练 ,每 次 包括 数 十 个 状态 - 动作 转换 。 


13.5 ”时间差 分 学 习 


O 学习 算法 的 学 习 过 程 是 循环 地 减 小 对 相 邻 状态 的 O 值 的 估计 之 间 的 差异 。 在 这 个 意 
义 上 ,0 学 习 是 更 广泛 的 时 间 差 分 (temporal difference) 算 法 中 的 特例 。 时 间 差 分 学 习 算法 学 
习 过 程 是 减 小 agent 在 不 同 的 时 间 做 出 估计 间 的 差异 。 因 为 式 (13. 10) 的 规则 减 小 了 对 某 状 
态 的 0 值 估计 以 及 其 立即 后 继 的 0 估计 之 间 的 差异 ,我 们 也 可 以 设计 算法 来 减 小 此 状态 与 
更 远 的 后 继 或 前 趋 状态 之 间 的 差异 。 

为 进一步 探讨 这 个 问题 ,回忆 一 下 0 学 习 , 它 的 训练 规则 计算 出 的 0(s,, a,) 的 训练 值 是 
以 0(s,41,a+1) 表 示 的 ,其 中 s, ,1 是 应 用 动作 a RAs, 的 结果 。 令 040(s a,) 为 此 单 步 
前 瞻 计 算 的 训练 值 : 

Q(s,,a,) = 7, + 7 maxQ (s.r1, 4) 
HE Q(s,, a) 训练 值 的 男 一 种 方法 是 基于 两 步 的 观察 到 的 回报 : 
Q(s,,4,) = r t Wa y? max@ (s,,2,4) 
以 及 在 一 般 的 情况 下 n 步 的 回报 : 
Qs a) = ri + Yra tot YD rat) + 7 max (sensa) 

Sutton(1998) 介 绍 了 混合 这 些 不 同 训练 估计 的 一 般 方 法 , 称 为 TD(A)。 这 一 想法 是 使 用 

常量 0 三 三 1 来 合并 从 不 同 前 上 腾 距 离 中 获得 的 估计 , 见 下 式 : 
Q*(s,,a,) = (1-A)LQ(s,,a,) + AQ (s,,a,) + A7Q(5,,a,) + …] 
O 的 一 个 等 价 的 递归 定义 为 : 
Csesar) = ri + YECA -= A) max (ssar) + AQ (sir1s a1+1)] 
注意 ,如 果 我 们 选择 A = 0, 则 得 到 原来 的 训练 估计 00), 它 只 考虑 Ô 估计 中 的 单 步 差异 。 
X A 增 大 时 ,此 算法 重点 逐渐 转移 到 更 远 的 前 瞻 步 中 。 在 极端 情况 A = 1 时 ,只 考虑 观察 到 的 
r,;; 值 ,当前 的 O 估计 对 其 没有 贡献 。 注 意 当 @ = @ 时 ,由 @* 给 出 的 训练 值 对 于 0< si 
的 所 有 A 值 都 相同 。 
TD(A) 方 法 的 动机 是 ,在 某 些 条 件 下 MRS REHM, 训练 会 更 有 效 。 例 如 , 当 
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agent 遵 循 最 优 策略 选择 动作 时 ,A = 1 的 0* 将 提供 对 真实 0 值 的 完美 估计 ,不 论 0 有 和 多么 不 
精确 。 另 一 方面 ,如 果 动 作 序列 的 选择 是 次 优 的 ,那么 对 未 来 的 观察 r, , ;可 能 有 误导 性 。 

Peng & Wiliams(1994) 提 供 了 进一步 的 讨论 和 实验 结果 ,显示 了 QO 在 一 个 问题 领域 上 
的 卓越 性 能 。Dayan (1992) 显 示 了 ,在 一 定 条 件 下 ,类似 的 TD(A) 方 法 应 用 到 学 习 V* 函数 
中 ,对 于 0< <l 的 任意 4 ERIEK. Tesauro (1995) 在 其 TD-GAMMON 程序 西洋 双 
陆 棋 对 弈 中 使 用 了 TD(2 ) 方 法 。 


13.6 ”从 样 例 中 泛 化 


至 此 ,在 0 学 习 中 可 能 最 具有 约束 性 的 假定 是 其 目标 函数 被 表示 为 一 个 显 式 的 查找 表 ， 
每 个 不 同 输入 值 ( 即 状态 - 动作 对 ) 有 一 个 表 项 。 因 此 我 们 的 讨论 的 算法 执行 一 种 机 械 的 学 习 
方法 ,并 且 不 会 尝试 通过 从 已 看 到 的 状态 - 动作 对 中 泛 化 来 估计 未 看 到 的 状态 - 动作 对 的 0 
值 。 这 个 机 械 学 习 假 定 在 收敛 性 证 明 中 反映 出 来 , 它 证 明了 只 有 每 个 可 能 的 状态 - 动作 被 无 
限 频繁 的 访问 ,学 习 过 程 才 会 收敛 。 在 大 的 或 无 限 的 空间 中 ,或 执行 动作 的 开销 很 大 时 ,这 显 
然 是 不 切实 际 的 假定 。 所 以 ,更 实际 的 系统 通常 合并 其 他 章 讨 论 的 函数 和 逼近 方法 和 这 里 讨论 
的 0 学 习 训练 规则 。 

很 容易 把 反 向 传播 这 样 的 函数 还 近 算法 结合 到 0 学 习 算法 中 ,方法 是 通过 用 神经 网 络 替 
代 查 找 表 ,并 且 把 每 个 0(s, a) 更 新 作为 训练 样 例 。 例 如 ,我 们 可 把 状态 s 和 动作 a 编码 为 网 
络 输入 ,并 使 用 式 (13.7) 和 式 (13.10) 的 训练 法 则 训练 网 络 输出 & 的 目标 值 。 另 一 种 有 时 在 
实践 中 更 成 功 的 方法 是 对 每 个 动作 训练 一 个 单独 的 网 络 , 使 用 状态 作为 输入 , 9 为 输出 。 还 
有 一 种 通常 使 用 的 方法 是 训练 一 个 网 络 , 它 以 状态 作为 输入 ,但 对 每 个 动作 输出 一 个 0 值 。 
回忆 第 1 章 中 我 们 讨论 了 在 棋盘 状态 上 使 用 线性 函数 和 LMS 算法 来 通 近 估计 函数 。 

在 实践 中 ,已 开发 出 了 许多 成 功 的 增强 学 习 系 统 ,它们 通过 结合 这 样 的 函数 逼近 算法 来 代 
HARE., Tesauro 成 功 的 TD - Gammon 程序 使 用 了 神经 网 络 和 反 向 传播 算法 ,并 与 TD(2) 
训练 规则 相 结 合 。Zhang & Dietterich (1996) 使 用 相似 的 反 向 传播 与 TD(4 ) 的 结合 用 于 job- 
shop 调度 任务 。Crites & Barto(1996) 描 述 了 一 个 用 于 电梯 调度 任务 的 神经 网 络 增强 学 习 方 
法 。Thrun (1996) 报 告 了 一 个 基于 神经 网 络 的 8 学 习 , 它 可 学 习 带 有 声 纳 和 摄像 头 传感器 的 
移动 机 器 人 的 基本 控制 过 程 。Mahadevan & Connell (1991) 描 述 了 一 个 基于 聚集 状态 的 8 学 
习 方 法 ,应 用 于 简单 的 移动 机 器 人 控制 问题 。 

虽然 这 些 系 统 获 得 了 成 功 ,但 对 于 其 他 的 任务 ,一 但 引信 了 泛 化 函数 和 逼 近 器 ,增强 学 习 将 
不 能 收敛 。 这 样 的 有 问题 的 任务 由 Boyan & Moore (1995) ,Baird (1995) 和 Gordon (1995) 介 
绍 。 注 意 本 章 前 面 讨论 的 收敛 性 定理 只 应 用 于 0 表示 为 明确 的 表 形式 时 ,为 了 看 到 困难 所 
在 ,考虑 使 用 一 个 神经 网 络 而 不 是 明确 的 表 来 表示 @ 。 如 果 学 习 器 更 新 网 络 以 更 好 地 匹配 特 
定 转换 的 < si, a; > 的 训练 9 值 , 变 化 了 的 网 络 权 值 也 会 修改 其 他 的 任意 转换 的 @ 估计 。 因 
为 这 些 权 值 变化 会 增加 其 他 转换 的 0 估计 的 误差 ,原来 定理 中 的 证 明 步 又 不 再 成 立 。 关 于 带 
有 泛 化 函数 逼近 器 的 增强 学 习 的 理论 分 析 由 Gordon (1995) 和 Tsitsiklis (1994) 作 出 。Baird 
(1995) 提 出 了 基于 梯度 的 方法 , 它 通过 直接 最 小 化 相 邻 状态 的 估计 中 的 差异 平方 和 来 解决 这 
一 难题 (也 被 称 为 Bellman 残留 误差 ) 。 


13.7 与 动态 规划 的 联系 
像 0 学 习 这 样 的 增强 学 习 方法 ,与 长 期 研究 的 用 于 解决 马尔 可 夫 决 策 过 程 的 动态 规划 方 
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法 有 着 紧密 的 联系 。 这 些 早期 的 工作 通过 假定 agen 拥有 它 所 处 环境 的 函数 O(s, a) r(s,a) 
的 完美 知识 。 因 此 , 它 主要 解决 的 问题 是 用 最 小 的 计算 量 得 到 最 优 策略 ,其 中 假定 环境 可 被 完美 
地 模拟 ,不 需要 直接 的 交互 。0 学 习 的 新 颖 之 处 在 于 它 假定 不 具有 6(s,a) 和 +r(s,a) 的 知识 , 它 
不 能 在 内 部 模拟 的 状态 空间 中 移动 ,而 必须 在 现实 世界 中 移动 并 观察 后 果 。 在 后 一 种 情况 下 ,我 
们 主要 考虑 的 是 agent 为 收敛 到 一 个 可 接受 的 策略 必须 执行 的 真实 世界 动作 数量 ,而 不 是 花费 的 
计算 迭代 次 数 。 原 因 是 ,在 许多 实际 的 领域 中 ,比如 生产 问题 ,在 外 部 世界 中 执行 动作 的 时 间 和 
费用 开销 比 计算 开销 更 值得 关注 。 在 真实 环境 中 移动 进行 学 习 并 且 观 察 其 结果 的 系统 通常 称 为 
FER (online) RSE, 而 主要 通过 模型 模拟 动作 的 学 习 被 称 为 离线 (offline) 系 统 。 

通过 考虑 Bellman 等 式 , 可 以 清楚 地 看 到 早期 的 方法 和 这 里 讨论 的 增强 学 习 问题 之 间 的 
密切 相关 性 。Bellman 等 式 形成 了 解决 MDP 的 动态 规划 方法 的 基础 ,其 形式 如 下 : 

(Ys E S)V"(s) = Elr(s,x(s)) + YV*(8(s,x(s)))] 

请 注意 Bellman 等 式 和 前 面 式 (13.2) 中 定义 的 最 优 策 略 之 间 的 紧密 联系 。Bellman 
(1957) 证 明了 最 优 策 略 r "满足 上 述 等 式 , 且 满 足 此 等 式 的 任何 策略 r 为 最 优 策 略 。 动 态 规 
划 方 面 的 早期 工作 包括 Bellman-Ford 最 短路 径 算法 (Bellman 1958, Ford & Fulkerson 1962). 
它 基 于 结 点 邻居 的 距离 ,通过 不 断 更 新 每 个 图 结 点 到 终点 的 估计 距离 来 学 习 图 中 的 路 径 。 在 
此 算法 中 ,图 的 各 边 以 及 目标 结 点 已 知 的 假定 ,等 价 于 8(s,a) 和 r(s,a) 已 知 的 假定 。Barto 
et al.(1995) 讨 论 了 增强 学 习 和 动态 规划 的 紧密 联系 。 


13.8 小 结 和 补充 读物 


本 章 的 要 点 包括 : 

e 增 强 学 习 解决 自治 agent 学 习 控制 策略 的 问题 。 它 假定 训练 信息 的 形式 为 对 应 每 个 状 
aS - 动作 转换 给 出 的 实 值 回报 信号 。agent 的 目标 是 学 习 一 个 行动 策略 , 它 使 agent 从 
任意 起 始 状态 收 到 的 总 回报 最 大 化 。 

o 本 章 介绍 的 增强 学 习 算 法 适合 一 类 被 称 为 马尔 可 夫 决策 过 程 的 问题 。 在 马尔 可 夫 决 策 
过 程 中 ,应 用 任意 动作 到 任意 状态 上 的 输出 只 取决 于 此 动作 和 状态 (与 以 前 的 动作 或 状 
态 无 关 )。 马 尔 可 夫 决 策 过 程 覆盖 了 范围 很 广 的 问题 ,包括 许多 机 器 人 控制 ,工厂 自动 
化 和 调度 问题 。 

o 0 学 习 是 增强 学 习 的 一 种 形式 ,其 中 agent 学 习 的 是 一 组 状态 和 动作 上 的 估计 函数 。 
确切 地 讲 , 佑 计 函 数 0(s,a) 被 定义 为 agent 应 用 动作 a 到 状态 上 时 可 获得 的 最 大 期 
望 折算 积累 回报 。Q 学 习 的 优点 是 ,即使 在 学 习 器 不 具有 其 动作 怎样 影响 环境 的 先 验 
知识 情况 下 ,此 算法 仍 可 应 用 。 

o 可 以 证 明 , 在 一 定 假定 下 ,如 果 学 习 器 的 假设 0(s, a) 表示 为 一 个 查找 表 , 且 对 每 个 (s,a) 对 
有 单独 的 表 项 ,那么 Q 学 习 可 以 收敛 到 正确 的 0 函数 。 在 确定 性 和 非 确定 性 的 MDP 下 此 
算法 都 可 收敛 。 在 实践 中 @ 学 习 即 使 在 规模 适中 的 问题 中 也 需要 数 千 次 的 训练 循环 。 

e 0 学 习 是 这 类 更 广泛 的 称 为 时 间 差 分 算法 中 的 一 种 。 一 般 说 来 ,时 间 差 分 算法 通过 不 
断 减 小 agent 在 不 同时 间 内 产生 的 佑 计 间 的 差异 来 学 习 。 

e 增 强 学 习 与 应 用 于 马尔 可 夫 决策 过 程 的 动态 规划 有 紧密 联系 。 其 关键 差异 在 于 ,历史 
上 这 些 动态 规划 方法 假定 agent 拥有 状态 转换 函数 8(s, a) 和 回报 函数 r(s, a) 的 知识 。 
相反 , Q 学 习 这 样 的 增强 学 习 算 法 假定 学 习 器 缺少 这 些 知 识 。 
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在 增强 学 习 方 面 的 许多 工作 中 ,通常 的 主题 是 选 代 地 减 小 后 继 状 态 估计 间 的 差异 。 使 用 这 
种 方法 的 某 些 最 早 的 工作 可 见 Samuel (1959) , 它 的 西洋 双 陆 棋 学 习 程 序 试图 通过 后 继 状 态 的 估 
计 来 生成 先前 状态 的 训练 值 ,从 而 学 到 西洋 双 陆 棋 的 估计 函数 。 几 乎 同时 ,Bellman-Ford 的 单 目 
的 最 短路 径 算 法 被 开发 出 来 (Bellman 1958, Ford & Fulkerson 1962) , 它 把 到 目的 的 距离 值 从 结 点 
传播 到 它 的 邻居 结 点 。 在 最 优 控制 方面 的 研究 导致 了 使 用 相似 方法 来 解决 马尔 可 夫 决 策 过程 
(Bellman 1961, Blackwell 1965) 。Holland(1986) 的 学 习 分 类 系统 的 组 桶 式 (bucket brigade) 方 法 使 
用 了 类 似 的 方法 在 延迟 回报 的 情况 下 传播 信用 。Barto et al.(1983) 讨 论 一 种 时 间 信 用 分 配 的 方 
法 ,导致 了 Sutton(1988) 的 论文 中 定义 了 TD(4) 方 法 并 证 明了 在 A =0 时 它 的 收敛 性 。Dayan 
(1992) 把 这 个 结果 扩展 到 4 的 任意 值 。Watkin(1989) 介 绍 了 用 0 学 习 在 回报 和 动作 转换 函数 未 
知 的 情况 下 获取 最 优 策 略 的 方法 。 在 这 些 方法 上 的 收敛 性 证 明 有 几 个 变种 ,除了 本 章 展 示 的 收 
敛 性 证 明 外 ,可 见 (Baird 1995, Bertsekas 1987, Tsitsiklis 1994, Singh & Sutton 1996). 

增强 学 习 仍 是 一 个 活跃 的 研究 领域 。 例 如 McCallum (1995) 和 Littman (1996) 讨 论 了 增 
强 学 习 的 扩展 ,以 适应 有 隐藏 状态 变量 破坏 马尔 可 夫 假 定 的 情况 。 许 多 当前 的 研究 致力 于 把 
这 些 方法 升级 到 更 庞大 更 实际 的 问题 中 。 例 如 Maclin 和 Shavlik(1996) 描 述 了 一 种 方法 ,其 中 
增强 学 习 agent 可 接受 施 教 者 的 不 完美 建议 , 它 是 基于 KBANN 算法 (第 12 章 ) 的 一 个 扩展 。 
Lin(1992) 考 虑 了 通过 提供 建议 动作 序列 来 施 教 的 作用 。Singh(1993) 和 Lin(1993) 建 议 使 用 
层次 化 的 动作 来 升级 这 些 算法 。Dietterich & Flann(1995) 探 索 了 基于 解释 的 方法 和 增强 学 习 
的 集成 , Mitchell & Thrun(1993) 描 述 了 应 用 EBNN 算法 (第 12 章 ) 到 0 学 习 中 。Ring(1994) 
考虑 了 agent 在 多 个 任务 中 的 持续 学 习 。 

近期 关于 增强 学 习 的 调查 由 Kaelbling et al. (1996), Barto (1992), Barto et al. (1995), 
Dean et al.(1993) 作 出 。 


习题 


13.1 给 出 图 13-2 所 示 问 题 的 另 一 种 最 优 策略 。 
13.2 考虑 下 图 显示 的 一 个 确定 性 格子 世界 ,其 中 含有 吸收 目标 状态 G。 这 里 作 了 标记 的 转 
换 的 立即 回报 为 10, 而 其 他 没 做 标记 的 转换 都 为 0。 
(a) 给 出 格子 世界 中 每 个 状态 的 V* 值 。 给 出 每 个 转换 的 0(s,a) 值 。 最 后 , 写 出 一 个 
最 优 策略 ,使 用 y = 0.8。 
(b) 试 改变 回报 函数 r(s ,a), 它 使 0(s ,a) 变 化 ,但 不 改变 最 优 策略 。 试 修改 r(s,a), 
使 0(s,a) 变 化 ,但 不 改变 V*(s,a)o 
(c) 现在 考虑 应 用 0 学 习 到 此 格子 世界 ,假定 O 值 的 表 被 初始 化 为 0。 假定 agent 从 左下 角 
的 方 格 开始 ,然后 顺 时 针 沿 着 周边 的 格子 移动 ,直至 达到 吸收 目标 状态 ,完成 第 一 个 训练 
情节 。 试 写 出 此 倩 节 的 结果 导致 哪些 Ò 值 的 修改 ,给 出 修正 后 的 值 。 现 如 果 agent 第 二 
次 运用 同样 的 情节 ,再 次 回答 此 问题 。 同 样 在 第 三 个 情节 后 回答 此 问题 。 
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13.3 考虑 与 一 个 随机 下 棋 的 对 家 对 弈 Tic-Tac-Toe。 确 切 地 讲 , 假 定 对 家 在 有 多 个 选择 时 以 
均匀 的 概率 选择 走 棋 ,除非 有 一 个 强制 性 的 走 棋 (这 时 它 采 取 显 然 正确 的 步子 )。 
(a) 在 此 情况 下 ,将 学 习 最 优 的 Tic-Tac-Toe 策略 形成 一 个 0 学 习 问 题 。 在 此 非 确 定 
性 马尔 可 夫 决 策 过 程 中 , 何 为 状态 、 动 作 以 及 回报 ? 
(b) 如 果 对 家 选择 最 优 的 走 棋 而 不 是 随机 走 棋 ,你 的 程序 能 否 胜 利 ? 
13.4 在 许多 MDP 中 ,有 可 能 找到 两 个 策略 x; 和 x ,如果 agent 开始 于 状态 s1, 则 xi 优 于 zo; 如 果 


agent 开始 于 另 一 状态 s, 则 m HEF mo RBZ, VCs) > Vs MA VCs) > V1(s2)。 
解释 为 什么 总 存在 一 个 策略 ,能 对 于 任意 一 个 初始 状态 s 使 <*(s*) 最 大 化 ( 即 最 优 策略 x * )。 


换言之 ,解释 为 什么 一 个 MDP 总 有 一 个 策略 x* MC as) V (s) BV sr(s)。 
参考 文献 


Baird, L. (1995). Residual algorithms: Reinforcement learning with function approximation. Proceed- 
ings of the Twelfth International Conference on Machine Learning (pp. 30-37). San Francisco: 
Morgan Kaufmann. 

Barto, A. (1992). Reinforcement learning and adaptive critic methods. In D. White & S. Sofge (Eds.), 
Handbook of intelligent control: Neural, fuzzy, and adaptive approaches (pp. 469-491). New 
York: Van Nostrand Reinhold. 

Barto, A., Bradtke, S., & Singh, S. (1995). Learning to act using real-time dynamic programming. 
Artificial Intelligence, Special volume: Computational research on interaction and agency, 
72(1), 81-138. 

Barto, A., Sutton, R., & Anderson, C. (1983). Neuronlike adaptive elements that can solve difficult 
learning control problems. IEEE Transactions on Systems, Man, and Cybernetics, 13(5), 834— 
846. 

Bellman, R. E. (1957). Dynamic Programming. Princeton, NJ: Princeton University Press. 

Bellman, R. (1958). On a routing problem. Quarterly of Applied Mathematics, 16(1), 87-90. 

Bellman, R. (1961). Adaptive control processes. Princeton, NJ: Princeton University Press. 

Berenji, R. (1992). Learning and tuning fuzzy controllers through reinforcements. IEEE Transactions 
on Neural Networks, 3(5), 724~740. 

Bertsekas, D. (1987). Dynamic programming: Deterministic and stochastic models. Englewood Cliffs, 
NJ: Prentice Hall. 

Blackwell, D. (1965). Discounted dynamic programming. Annals of Mathematical Statistics, 36, 226— 
235. 

Boyan, J., & Moore, A. (1995). Generalization in reinforcement learning: Safely approximating the 
value function. In G. Tesauro, D. Touretzky, & T. Leen (Eds.), Advances in Neural Information 
Processing Systems 7. Cambridge, MA: MIT Press. 

Crites, R., & Barto, A. (1996). Improving elevator performance using reinforcement learning. In 
D. S. Touretzky, M. C. Mozer, & M. C. Hasselmo (Eds.), Advances in Neural Information 
Processing Systems, 8. 

Dayan, P. (1992). The convergence of TD(A) for general 4. Machine Learning, 8, 341-362. 

Dean, T., Basye, K., & Shewchuk, J. (1993). Reinforcement learning for planning and control. In S. 
Minton (Ed.), Machine Learning Methods for Planning (pp. 67-92). San Francisco: Morgan 
Kaufmann. 

Dietterich, T. G., & Flann, N. S. (1995). Explanation-based learning and reinforcement learning: 
A unified view. Proceedings of the 12th International Conference on Machine Learning (pp. 
176-184). San Francisco: Morgan Kaufmann. 

Ford, L., & Fulkerson, D. (1962). Flows in networks. Princeton, NJ: Princeton University Press. 

Gordon, G. (1995). Stable function approximation in dynamic programming. Proceedings of the 
Twelfth International Conference on Machine Learning (pp. 261~268). San Francisco: Morgan 
Kaufmann. 

Kaelbling, L. P., Littman, M. L., & Moore, A. W. (1996). Reinforcement learning: A survey. Journal 





RIZE WRF IT 279 











of Al Research, 4, 237-285. Online journal at http://www.cs.washington.edu/research/jair/- 
home.html. 

Holland, J. H. (1986). Escaping brittleness: The possibilities of general-purpose learning algorithms 
applied to parallel rule-based systems. In Michalski, Carbonell, & Mitchell (Eds.), Machine 
learning: An artificial intelligence approach (Vol. 2, pp. 593-623). San Francisco: Morgan 
Kaufmann. 

Laird, J. E., & Rosenbloom, P. S. (1990). Integrating execution, planning, and learning in SOAR for 
external environments. Proceedings of the Eighth National Conference on Artificial Intelligence 
(pp. 1022-1029). Menlo Park, CA: AAAI Press. 

Lin, L. J. (1992). Self-improving reactive agents based on reinforcement learning, planning, and 
teaching. Machine Learning, 8, 293-321. 

Lin, L. J. (1993). Hierarchical learning of robot skills by reinforcement. Proceedings of the Interna- 
tional Conference on Neural Networks. 

Littman, M. (1996). Algorithms for sequential decision making (Ph.D. dissertation and Technical 
Report GS-96-09). Brown University, Department of Computer Science, Providence, RI. 

Maclin, R., & Shavlik, J. W. (1996). Creating advice-taking reinforcement learners. Machine Learn- 
ing, 22, 251-281. 

Mahadevan, S. (1996). Average reward reinforcement learning: Foundations, algorithms, and empir- 
ical results. Machine Learning, 22(1), 159-195. 

Mahadevan, S., & Connell, J. (1991). Automatic programming of behavior-based robots using rein- 
forcement learning. In Proceedings of the Ninth National Conference on Artificial Intelligence. 
San Francisco: Morgan Kaufmann. 

McCallum, A. (1995). Reinforcement learning with selective perception and hidden state (Ph.D. dis- 

. sertation). Department of Computer Science, University of Rochester, Rochester, NY. 

Mitchell, T. M., & Thrun, S. B. (1993). Explanation-based neural network learning for robot control. 
In C. Giles, S. Hanson, & J. Cowan (Eds.), Advances in Neural Information Processing Systems 
5 (pp. 287-294). San Francisco: Morgan-Kaufmann. 

Moore, A., & Atkeson C. (1993). Prioritized sweeping: Reinforcement learning with less data and 
less real time. Machine Learning, 13, 103. 

Peng, J., & Williams, R. (1994). Incremental multi-step Q-learning. Proceedings of the Eleventh 
International Conference on Machine Learning (pp. 226-232). San Francisco: Morgan Kauf- 
mann. 

Ring, M. (1994). Continual learning in reinforcement environments (Ph.D. dissertation). Computer 
Science Department, University of Texas at Austin, Austin, TX. 

Samvel, A. L. (1959). Some studies in machine learning using the game of checkers. IBM Journal 
of Research and Development, 3, 211-229. 

Singh, S. (1992). Reinforcement learning with a hierarchy of abstract models. Proceedings of the 
Tenth National Conference on Artificial intelligence (pp. 202-207). San Jose, CA: AAAI 
Press. 

Singh, S. (1993). Learning to solve markovian decision processes (Ph.D. dissertation). Also CMPSCI 
Technical Report 93-77, Department of Computer Science, University of Massachusetts at 
Amherst. 

Singh, S., & Sutton, R. (1996). Reinforcement learning with replacing eligibility traces. Machine 
Learning, 22, 123. ， 

Sutton, R. (1988). Learning to predict by the methods of temporal differences. Machine learning, 3, 
9-44. 

Sutton R. (1991). Planning by incremental dynamic programming. Proceedings of the Eighth Inter- 
national Conference on Machine Learning (pp. 353-357). San Francisco: Morgan Kaufmann. 

Tesauro, G. (1995). Temporal difference learning and TD-GAMMON. Communications of the ACM, 
38(3), 58-68. 

Thrun, S. (1992). The role of exploration in learning control. In D. White & D. Sofge (Eds.), 
Handbook of intelligent control: Neural, fuzzy, and adaptive approaches (pp. 527-559). New 
York: Van Nostrand Reinhold. 

Thrun, S. (1996). Explanation-based neural network learning: A lifelong learning approach. Boston: 
Kluwer Academic Publishers. 





280 he FT 








Tsitsiklis, J. (1994). Asynchronous stochastic approximation and Q-learning. Machine Learning, 
16(3), 185-202. . 

Watkins, C. (1989). Learning from delayed rewards (Ph.D. dissertation). King’s College, Cambridge, 
England. 

Watkins, C., & Dayan, P. (1992). Q-learning. Machine Learning, 8, 279-292. 

Zhang, W., & Dietterich, T. G. (1996). High-performance job-shop scheduling with a time-delay 
TD@) network. In D. S. Touretzky, M. C. Mozer, & M. E. Hasselmo (Eds.), Advances in 
neural information processing systems, 8, 1024-1030. 





附录 符号 约定 


以 下 为 本 书 中 使 用 的 符号 : 


(a,b]: 


a 
Dy ai: 
i=1 


lis. 
H: 


g? 


> 


argmax f ( x): 


“[” “J”“(”" 和 “)” 形 式 的 括号 用 来 表示 区 间 , 其 中 方 括号 表示 区 间 包 含 边界 
值 ,而 圆 插 号 表示 区 间 不 包含 边界 值 。 例 如 ,(1,3] 表 示 区 间 1 < x <3。 


表示 连 加 xi + eat + xno 


表示 连 乘 xj x2…… no 

逻辑 涵 区 符号。 例如 4 上 B 表示 B 从 4 中 演绎 派生 。 

表示 “ 比 …… 更 一 般 ” 的 符号 。 例 如 h; > h; RE h; 比 应 更 一 般 。 
使 f(x) 最 大 的 x 值 。 例 如 : 


argmax x= -3 
x€ 41,2, -3| 


: 一 个 逼近 函数 F(x ) 的 函数 。 
: 在 PAC 学 习 中 ,失败 的 概率 的 边界 。 在 人 工 神经 网 络 学 习 中 ,与 一 个 单元 的 输 


出 相关 联 的 误差 项 。 


: 某 假设 错误 率 的 边界 (在 PAC 学 习 中 )。 
; 在 神经 网 络 等 学 习 算法 中 的 学 习 速率 。 
: 概率 分 布 的 均值 。 

: 概率 分 布 的 标准 差 。 

: E FHAR w 的 梯度 。 

: 可 能 的 目标 函数 类 。 

> 训练 数据 。 | 

: 实例 空间 上 的 概率 分 布 。 

: x 的 期 望 值 。 

: 一 个 权 值 为 向 量 w 的 神经 网 络 的 误差 平方 和 。 
: 离散 值 假设 (或 预测 ) 的 错误 率 。 

: 假设 空间 。 

; 假设 对 于 实例 x 产生 的 预测 。 

: x 的 概率 (质量 )。 

: 事件 x 的 概率 (质量 )。 

: x 的 概率 密度 。 

: 增强 学 习 中 的 0 函数 。 

: 实数 集合 。 
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VC(A): 假设 空间 Aw Vapnik-Chervonenkis SEE 
VS, p: 变型 空间 , 即 假设 空间 H 中 与 D 一 致 的 假设 的 子 集 。 
wi: 在 人 工 神经 网 络 中 ,从 结 点 i 到 结 点 j 的 权 值 。 
X: 实例 空间 。 


